Résumé | Les systèmes de traduction automatique statistique sont habituellement « entranés » à l'aide de volumes considérables de textes bilingues et de textes unilingues dans la langue cible. Dans cet article, nous présenterons une méthodologie d'auto apprentissage qui explore en plus l'emploi de texte source unilingue, à savoir les documents à traduire, pour améliorer la performance du système. Une version initiale du système de traduction est employée pour traduire le texte source. Parmi les traductions produites, les phrases cibles de mauvaise qualité sont automatiquement détectées et rejetées. Les traductions fiables ainsi que leurs sources sont ensuite utilisées, à titre de nouveau corpus bilingue, pour l'entrarnement d'un modèle additionnel de traduction de syntagme. Ainsi, le système de traduction peut être adapté aux nouvelles données source, même si aucune donnée bilingue dans ce domaine n'est disponible. L'évaluation expérimentale s'est faite sur une tche standard de traduction du chinois vers l'anglais. Nous nous concentrons sur des situations où le domaine et/ou le style des données d'essai est différent de celui du matériel d'entrarnement. Nous démontrerons une amélioration notable de la qualité grce à l'usage du modèle adaptatif de traduction de syntagmes. La cote BLEU monte à 1,1 point et la baisse du mWER peut atteindre 3,1 % en valeur absolue. |
---|