Sujet : “Positionnement Visuel pour la Réalité Augmentée en Environnement Bâti”
Rapporteurs :
Examinateurs :
Résumé
Mesurer en temps réel la pose d’une caméra relativement à des repères tridimensionnels identifiés dans une image vidéo est un, sinon le pilier fondamental de la réalité augmentée. Nous proposons de résoudre ce problème dans des environnements bâtis, à l’aide de la vision par ordinateur. Nous montrons qu’un système de positionnement plus précis que le GPS, et par ailleurs plus stable, plus rapide et moins coûteux en mémoire que d’autres systèmes de positionnement visuel introduits dans la littérature, peut être obtenu en combinant divers types d’approches: approche probabiliste (détection a contrario des points de fuite de l’image), apprentissage profond (proposition de boites contenant des façades, élaboration d’un descripteur de façades basé sur un réseau de neurones convolutifs), inférence bayésienne (recalage par espérance-maximisation d’un modèle géométrique et sémantique compact des façades identifiées) et sélection de modèle (analyse des mouvements de la caméra par suivi de plans texturés). Nous proposons de plus une méthode de modélisation in situ permettant d’obtenir de manière fiable, de par leur confrontation immédiate à la réalité, des modèles 3D utiles au calcul de pose tel que nous l’envisageons.
Abstract
Measuring a camera pose with respect to three-dimensional landmarks identified in a video image is one, if not the fundamental pillar of augmented reality. We propose to solve this problem in built environments, using computer vision. We show that a positioning system more accurate than the GPS and more stable, faster and less expensive in memory than other visual positioning systems introduced into the literature, can be obtained by combining various techniques such as probabilistic methods (a-contrario detection of vanishing points), deep learning (proposal of boxes containing facades, designing of a facade descriptor based on a convolutional neural network), Bayesian inference (registration based on expectation-maximization of a compact geometric and semantic model of the identified facades) and model selection (analysis of the camera motion by tracking textured planar surfaces). We also propose an immersive, image-based modeling tool, aimed at reliably obtain 3D models useful for computing the pose.