Jurys :
Pr. Yves Lepage : Université de Waseda, Japon
Pr. Violaine Prince : Université Montpellier 2, France
Pr. Yannick Estève : Université Avignon, France
Pr. Ammar Oulamara : Université de Lorraine, France
Pr. Kamel Smaïli : Université de Lorraine, France
MCF David Langlois : Université de Lorraine, France
Résumé :
Différentes composantes des systèmes de traduction automatique statistique sont considérées comme des problèmes d’optimisations. En effet, l’apprentissage du modèle de traduction, le décodage et l’optimisation des poids de la fonction log-linéaire sont trois importants problèmes d’optimisation. Savoir définir les bons algorithmes pour les résoudre est l’une des tâches les plus importantes afin de mettre en place un système de traduction performant.
Plusieurs algorithmes d’optimisation sont proposés pour traiter les problèmes d’optimisation du décodeur. Ils sont combinés pour résoudre, d’une part, le problème de décodage qui produit une traduction dans la langue cible d’une phrase source, d’autre part, le problème d’optimisation des poids des scores combinés dans la fonction log-linéaire pour d’évaluation des hypothèses de traduction au cours du décodage. Le système de traduction statistique de référence est basé sur un algorithme de recherche en faisceau pour le décodage, et un algorithme de recherche linéaire pour l’optimisation des poids associés aux scores.
Nous proposons un nouveau système de traduction avec un décodeur entièrement basé sur les algorithmes génétiques. Les algorithmes génétiques sont des algorithmes d’optimisation bio-inspirés qui simulent le processus de l’évolution naturelle des espèces. Ils permettent de manipuler un ensemble de solutions à travers plusieurs itérations pour converger vers des solutions optimales. Ce travail, nous permet d’étudier l’efficacité des algorithmes génétiques pour la traduction automatique statistique. L’originalité de notre proposition est de proposer deux algorithmes : un algorithme génétique, appelé GAMaT, comme décodeur pour un système de traduction statistique à base de segments, et un algorithme génétique, appelé GAWO, pour l’optimisation des poids de la fonction log-linéaire afin de l’utiliser comme fonction fitness pour GAMaT. Nous proposons également, une approche neuronale pour définir une nouvelle fonction fitness pour GAMaT. Cette approche consiste à utiliser un réseau de neurones pour l’apprentissage d’une fonction qui combine plusieurs scores, évaluant différents aspects d’une hypothèse de traduction, combinés auparavant dans la fonction log-linéaire, et qui prédit le score BLEU de cette hypothèse de traduction.
Dans un premier temps, nous réalisons un ensemble d’expérimentations pour étudier le comportement de nos algorithmes génétiques, GAMaT et GAWO, ainsi que les performances du réseau de neurones pour l’apprentissage de la fonction de prédiction du score BLEU. Par la suite, nous évaluons les performances de traduction de notre système de traduction génétique sur deux paires de langues différentes (français-anglais et turc-anglais). GAMaT est évalué en utilisant les deux fonctions de fitness, à savoir GAWO pour l’optimisation des poids et la fonction de prédiction du BLEU apprise par le réseau de neurones. Nous comparons également, les performances de notre système avec celles des systèmes de référence en traduction automatique.
Ce travail, nous a permis de proposer un nouveau système de traduction automatique statistique ayant un décodeur entièrement basé sur des algorithmes génétiques. Les traductions en sortie du système rivalisent avec celles des systèmes de référence, malgré le fait que les performances de traduction sur les ensembles de test ne sont pas meilleures. La thèse propose une analyse statistique comparative des cas où chaque système donne de meilleurs résultats que les deux autres, où notre système s’est mieux comporté que les autres dans un grand nombre de traductions. Nous avons également étudié les avantages et les limites de l’utilisation des algorithmes génétiques dans un système de TAS, tout en proposant une analyse critique et des perspectives d’amélioration et d’adaptation de notre travail.
*******************************************************************************************************