Loading Events

« All Events

  • This event has passed.

PhD defense: Matthieu Zins

9 December 2022 @ 13:30 pm - 17:00 pm

Matthieu Zins (Tangram) will defekt his thesis on Friday 9th December at 1.30 pm in room C005.

His presentation will be in French and is entitled “Contributions à la précision et à la robustesse de la localisation visuelle dans un monde d’objets“.

 

Composition du jury:
Rapporteurs:
Vincent Lepetit, Professeur des Universités – École des Ponts ParisTech
Eric Marchand, Professeur des Universités – Université de Rennes
Examinateurs:
Gabriela Csurka, Principal Research Scientist – Naver Labs Europe
Sylvain Lazard, Directeur de Recherche – Inria Nancy – Grand Est
Encadrants:
Marie-Odile Berger, Directrice de Recherche – Inria Nancy – Grand Est
Gilles Simon, Maı̂tre de Conférences HDR – Université de Lorraine
Résumé:
 
La localisation visuelle est un problème bien connu en vision par ordinateur, qui a de nombreuses applications, par exemple, en robotique pour la navigation de systèmes autonomes (robots, drones, véhicules) ou en réalité augmentée.
Elle consiste à estimer la position et l’orientation de la caméra dans une scène. Les approches classiques reposent généralement sur la structure géométrique de la scène et cherchent à mettre en correspondance des points d’intérêt 2D, détectés dans les images, avec des points 3D de la scène. Cet appariement est cependant un problème complexe en pratique, notamment parce qu’il repose sur de l’information locale, extraite dans un voisinage autour des points d’intérêt. Selon la taille de la scène, ces méthodes peuvent être très coûteuses en calcul. Elles sont également sensibles à des changements importants de points de vue, à des conditions visuelles dégradées et échouent dans des zones faiblement texturées.
Dans ce travail de thèse, nous nous sommes intéressés à l’utilisation des objets comme balises sémantiques pour le positionnement visuel. Grâce aux avancées récentes, notamment avec l’apprentissage profond, il est possible de détecter des objets de manière très robuste dans les images, de pratiquement n’importe quel point de vue. Nous avons adopté une modélisation légère des objets sous la forme d’ellipsoïdes et nous voulons en tirer profit pour améliorer la robustesse de la localisation visuelle.
Dans un premier temps, nous avons cherché à améliorer la détection des objets par des ellipses, qui constituait l’une des principales sources d’imprécision du calcul de pose. Ainsi, nous avons remplacé les ellipses inscrites dans les boîtes de détection alignées avec les axes de l’image par des ellipses orientées cohérentes avec la projection des modèles ellipsoïdaux des objets. Nos expériences ont montré que notre approche améliore nettement la précision des méthodes existantes basées sur les objets et surpasse la robustesse des méthodes par points.
Dans un second temps, nous avons proposé une étape de raffinement de la pose de la caméra par la minimisation d’une erreur de reprojection des objets, qui permet de prendre en considération tous les objets détectés dans l’image. Contrairement à une distance entre des points, établir un coût entre des ellipses n’est pas trivial. Nous avons analysé différentes métriques et nous avons proposé une nouvelle formulation basée sur des ensembles de niveaux. Nos expériences ont mis en avant ses bonnes propriétés de convergence et de gestion des objets partiellement visibles dans l’image. Nous avons également montré que cette étape de raffinement permet d’améliorer considérablement la solution analytique du calcul de pose basé sur les objets.
Enfin, nous avons intégré ce concept d’objet dans un SLAM et développé un système capable de cartographier les objets à la volée. L’intérêt est double, avec la possibilité de les utiliser comme balises de relocalisation et avec l’ajout d’une information sémantique à la carte offrant une meilleure compréhension de la scène. Notre système fait collaborer les objets et les points et bénéficie de leurs avantages respectifs, la robustesse et la précision. Nous avons montré, dans nos expériences, que cela permet d’étendre considérablement la capacité de relocalisation de notre système.
Mots-clés: Vision par ordinateur, Réalité augmentée, Localisation visuelle, Apprentissage profond, SLAM.

Details

Date:
9 December 2022
Time:
13:30 pm - 17:00 pm
Event Category:

Venue

C005

 

 

Logo d'Inria