[sujet de thèse, TANGRAM]: Reconstruction sémantique in situ pour la réalité augmentée improvisée

Encadrement

La thèse se déroulera à Nancy dans l’équipe TANGRAM, une équipe conjointe entre Inria et l’Université de Lorraine, au sein de l’UMR 7503 Loria https://team.inria.fr/tangram/. Elle sera encadrée par Marie-Odile Berger (marie-odile.berger@inria.fr ), directrice de recherche à Inria et Gilles Simon (gilles.simon@loria.fr ), maître de conférences HDR à l’Université de Lorraine.

Sujet

Nous souhaitons tirer parti pour obtenir ces reconstructions des informations sémantiques désormais largement disponibles dans les scènes via l’apprentissage automatique. Notre approche s’inscrit dans la mouvance du SLAM sémantique, qui prend de nombreuses formes (voir [3]) en construisant des cartes 3D ayant un contenu sémantique avec cependant ici l’idée supplémentaire de reconstruire une entité complète ayant des propriétés sémantiques et topologiques.   Nous souhaitons dans cette thèse étudier deux approches : l’une de type bottom-up, partira de géométrie 3D et d’informations sémantique et développera des mécanismes de fusion élaborés. L’autre cherchera à construire directement une entité à partir des informations présentes dans la scène en intégrant des contraintes sémantiques et topologiques présents dans des constructions urbaines. Le problème de comment formuler des contraintes de formes et les intégrer dans une reconstruction lors d’un processus d’observation temporel sera donc au cœur de cette thèse

La première approche s’appuiera sur l’état de l’art de la reconstruction sémantique opérant sur des images RGB-D [4,5]. Ces méthodes fusionnent des cartes de profondeur issues d’une Kinect ou d’un CNN (Convolutional Neural Network) pour générer des maillages sémantiques 3D denses. L’extraction de la géométrie est le plus souvent indépendante de celle de l’information sémantique [4], mais certains auteurs tirent profit des corrélations entre les deux types d’information, profondeur et sémantique, pour estimer conjointement la géométrie et la sémantique à l’aide d’un CNN end-to-end [5]. Il conviendra dans cette approche d’intégrer des priors topologiques au réseau convolutif générant le maillage 3D, dans l’esprit de [6], puis d’extraire les primitives géométriques du maillage obtenu.

La seconde approche exploitera des images RGB associées à des cartes sémantiques 2D pour obtenir directement des modèles CAO, sans passer par un maillage 3D. Les gradients d’intensité, les labels sémantiques et les points de fuite [7] seront mis à profit pour détecter des primitives sémantiques et les reconstruire en 3D, à partir d’une première image RGB. De telles primitives étant immédiatement exploitables pour calculer le mouvement de la caméra, le modèle initial pourra être amendé à mesure que les déplacements de l’utilisateur feront apparaître des parties de la scène non visibles au départ. Cette stratégie est à rapprocher de la méthode [8], dont les étapes manuelles seraient automatisées, et des techniques de SLAM visuel sémantique [3]. Elle autorise à contrôler l’extension du modèle, en tenant compte de contraintes topologiques et de mesures d’incertitude.

Contexte

Cette thèse a pour objectif de permettre à un utilisateur de reconstruire incrémentalement, en trois dimensions, un environnement architectural en se déplaçant physiquement dans la scène. Le modèle généré sera constitué de primitives surfaciques ou volumiques (rectangles, boites, ellipsoïdes, etc.), associées à des classes sémantiques (sol, façade, immeuble, arbre, etc.).  Ce type de représentation est particulièrement adapté à la CAO (Conception Assistée par Ordinateur), à l’infographie 3D et aux SIG, dont les objets manipulés doivent être à la fois compacts et informatifs.  Il est également très intéressant pour la réalité augmentée (RA) puisqu’il facilite le recalage du modèle 3D dans les images vidéo [1,2] et le placement des objets virtuels par rapport aux objets de la scène réelle.

La reconstruction incrémentale in situ, et non en post-traitement, a pour intérêt de permettre à l’utilisateur de suivre visuellement le déroulement des opérations conformément au paradigme WYSIWYG (What You See Is What You Get) et d’en influencer le cours en choisissant ses déplacements autour des parties de la scène à modéliser. Elle ouvre également la voie à la RA « improvisée », qui doit opérer dans des environnements que l’on découvre en même temps qu’on les augmente. Cela concerne par exemple l’exploration collaborative de lieu ou le prototypage rapide de projets d’aménagement.

Références

[1]       Matthieu Zins, Gilles Simon, Marie-Odile Berger. Object-Based Visual Camera Pose Estimation From Ellipsoidal Model and 3D-Aware Ellipse Prediction. International Journal of Computer Vision, Springer Verlag, 2022.

[2]       Antoine Fond, Marie-Odile Berger, Gilles Simon. Model-image registration of a building’s facade based on dense semantic segmentation. Computer Vision and Image Understanding, Elsevier, 2021, 206, pp. 103-185.

[3]       Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao, Xinying Li. A survey of image semantics-based visual simultaneous localization and mapping: Application-oriented solutions to autonomous navigation of mobile robots. International Journal of Advanced Robotic Systems, May-June 2020: 1–17.

[4]      Q.-H. Pham, B.-S. Hua, T. Nguyen, S.-K. Yeung. Real-time progressive 3d semantic segmentation for indoor scenes. IEEE WACV, 2019, pp. 1089–1098.

[5]       Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstrom, Cristian Sminchisescu, Luc Van Gool. A Real-Time Online Learning Framework for Joint 3D Reconstruction and Semantic Segmentation of Indoor Scenes. IEEE Robotics and Automation Letters, 2021.

[6]       Rosana El Jurdi. Prior-constrained Convolutional Neural Networks for Medical Image Segmentation. PhD. Normandie Université, Université Libanaise, 2021.

[7]       Gilles Simon, Antoine Fond, Marie-Odile Berger. A-Contrario Horizon-First Vanishing Point Detection Using Second-Order Grouping Laws. European Conference on Computer Vision,  Sep 2018, Munich, Germany. pp. 323-338.

[8]       Gilles Simon, Marie-Odile Berger. Interactive Building and Augmentation of Piecewise Planar Environments Using the Intersection Lines. The Visual Computer, Springer Verlag, 2011, 27 (9), pp.827-841.

Mots-clefs

SLAM sémantique, réseaux de neurones convolutifs, reconstruction 3D, réalité augmentée