[proposition thèse 2023] Analyse de scènes dynamiques à partir d’une représentation neuronale implicite (NeRF) basée sur des données LiDAR-caméra

Equipe d’accueil :
TANGRAM (équipe commune au LORIA et à INRIA Nancy Grand Est)

Encadrants : Gilles Simon (TANGRAM, HDR) et Renato Martins (Université de Bourgogne et membre associé de TANGRAM)

Contacts: gilles.simon@loria.fr ; renato.martins@u-bourgogne.fr

Date limite de candidature : 15/05/2023

Mots clés :
Analyse et reconstruction 3D de scènes dynamiques ; Données multimodales et asynchrones ; NERF – Neural radiance fields ; Couplage LiDAR-caméra ; SLAM par apprentissage profond ;

Contexte :
Le couplage des données LiDAR-caméra est de plus en plus fréquent et est notamment utilisé dans le cadre de la perception et l’analyse de scène dans des applications comme la conduite autonome, l’acquisition de modèles 3D sémantisés et la réalité augmentée. Alors que les données RGB-D sont largement utilisées pour l’analyse de scènes et dans des approches récentes de Localisation et Cartographie Simultanées (SLAM) par apprentissage profond, le caractère épars et asynchrone des données LIDAR rend l’analyse plus complexe, surtout dans le cas d’environnements dynamiques. Les mesures des capteurs LiDAR sont notamment affectées par des distorsions introduites à la fois par le mouvement du capteur et par l’acquisition des points 3D réalisée par balayage (rolling-shutter).

Pour adresser ces verrous scientifiques dans le contexte du SLAM et la relocalisation en scènes extérieures dynamiques, nous souhaitons explorer dans cette thèse l’apport des nouvelles méthodes de représentation de scènes par des surfaces implicites issues des réseaux de neurones, et notamment les représentations neuronales implicites (NeRF) [1]. Basés sur ce concept, divers travaux ont cherché à améliorer la qualité des surface reconstruites grâce à des données RGB-D [2] ou à prendre en compte des scènes localement déformables [3]. D’autres ont utilisé ces modèles pour la localisation [4] ou pour des problématiques de structure-from-motion (SFM) [5,6] avec des environnements statiques. Un objectif central de cette thèse est d’étudier la pertinence d’un modèle neural pour la localisation dans le cadre de données LiDAR et pour des environnements dynamiques.

Sujet :
Les points suivants seront abordés:

• Intégration de l’alignement spatio-temporel des données LiDAR-caméra au sein du processus de représentation par NeRF en prenant en compte le caractère asynchrone des capteurs avec une caméra à rolling-shutter et un LiDAR dont les dynamiques d’acquisition diffèrent.
• Représentation de scènes dynamiques : l’objectif sera d’étendre l’usage des représentations neuronales implicites à des scènes dynamiques avec des données LiDAR-caméra. Des travaux récents sur le SLAM par apprentissage profond ont été proposés mais la plupart portent sur des scènes rigides et leur capacité de généralisation à des points de vue éloignés des trajectoires d’apprentissage reste à estimer. Nous nous intéresserons dans ce travail à des scènes dynamiques, en boucle ouverte, avec des objets mobiles à cinématique simple (rigides par morceaux).
• Afin de rendre les procédures de modélisation plus flexibles, la possibilité d’utiliser un modèle neural existant pour l’adapter à un nouvel objet de la même catégorie à l’aide de peu d’images sera également examinée. Nous voulons investiguer aussi l’incorporation des a priori géométriques présents dans la scène pour guider l’apprentissage de la représentation neuronale.

Compétences :
• Master 2 ou diplôme d’ingénieur en informatique, traitement d’images/vision par ordinateur ou apprentissage statistique.
• Expérience de programmation en Python et dans un framework de deep learning (Pytorch, tensorflow,…).
• Une expérience préalable et/ou un intérêt pour l’analyse d’images, infographie ou la vision par ordinateur sont un plus.

Environnement de travail :
Le/la doctorant(e) intégrera l’équipe TANGRAM commune au LORIA et à l’Inria Nancy Grand Est (consulter le site https://team.inria.fr/tangram/) Il/elle bénéficiera de l’environnement de recherche et de l’expertise en traitement et analyse d’image de cette équipe. Il bénéficiera aussi des compétences de M.O. Berger (responsable scientifique de l’équipe TANGRAM) et de C. Demonceaux, enseignant-chercheur à l’université de Bourgogne et membre associé de l’équipe TANGRAM.

Bibliographie :

[1] B. Mildenhall, P. Srinivasan, M . Tancij, J. Barron, R . Ramamoorthi, Ren Ng. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV 2020.
[2]. Roessle, J. Barron, B., Pratul P. Srinivasan, Matthias Niessner. Dense Depth Priors for Neural Radiance Fields from Sparse Input Views. CVPR 2022.
[3]K.Park, U. Sinha, J. Barron, S. Bouaziz, D. Goldman, S. Seitz, R. Martin-Brualla. Nerfies: Deformable Neural Radiance Fields. ICCV 2021.
[4] L. Yen-Chen, P. Florence, J. Barron, A. Rodrigue, P Isola, T. Lin. iNeRF: Inverting Neural Radiance Fields for Pose Estimation. IROS 2021. arXiv:2012.05877.
[5] Z. Zhu, S. Peng, V. Larsson, Z. Cui, M. Oswald, A. Geige, M. Pollefeys. NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM. https://arxiv.org/pdf/2302.03594.pdf
[6 ] H.Matsuki1, K. Tateno, M. Niemeyer, F. Tombari. NEWTON: Neural View-Centric Mapping for Onthe-Fly Large-Scale SLAM. https://arxiv.org/pdf/2303.13654.pdf