Transformation digitale

La nouvelle traduction instantanée

Par

8 septembre 2017

C-3PO va-t-il enfin comprendre le charabia de Maître Yoda ?

Temps de lecture estimé : 3 minutes

Robot sténo ?

Jusqu’à présent C-3PO, le robot multilingue de Star Wars, n’avait rien à envier aux algorithmes de traduction instantanée, mais cela pourrait bien changer avec l’avènement de la traduction neuronale…

Si tous les hommes se comprenaient, alors ils pourraient construire de grandes choses. C’est en substance ce que l’on peut tenter de comprendre de l’épisode de la tour de Babel, dans la Bible, où les hommes, qui parlent tous la même langue, entreprennent de construire une tour pouvant toucher le ciel, avant que Dieu ne vienne les diviser en leur distribuant des langues différentes. Moins de compréhension, donc moins de grands projets. Et si nous étions sur le point de nous comprendre, au point que chacun puisse être entendu dans toutes les langues ? Un rêve que caressent tous les grands du numérique qui s’activent pour proposer chacun leur solution de traduction instantanée. Facebook sur Messenger, Google, mais aussi Microsoft, avec Bing ou Skype, ambitionnent tous de connecter les gens et de se débarrasser de la barrière de la langue. Impossible il y a encore une dizaine d’années, balbutiante ces dernières années, les évolutions actuelles des techniques de traduction automatique permettent aujourd’hui d’imaginer le monde de demain, où la langue de l’autre n’est plus un frein.

Apprendre à apprendre machinalement

A l’origine de la traduction automatique se trouve la traduction symbolique, une première phase durant laquelle les traducteurs ont appris à la machine à traduire un texte, en programmant un certain nombre de règles définissant la norme de la traduction. Si cela fonctionnait très bien pour traduire des mots, difficile de s’en servir pour faire des phrases. Avec l’avènement du Big data, et initiée par Google, la traduction automatique entre alors dans une nouvelle phase, celle de la traduction statistique. Sur la base de toutes les traductions qui sont déjà présentes sur le Web, un algorithme va tenter de définir par similarité la traduction de la phrase la plus adéquate. Pour les services de traduction instantanés comme celui proposé par Google, il s’agissait alors d’être capable de gérer des masses gigantesques de données afin d’offrir ce service. Un chemin qu’a également suivi la société française Systran, qui a appliqué ce modèle à la traduction spécialisée et répond à des besoins de traduction sur-mesure pour les entreprises. Les techniques de traduction automatique ont pourtant radicalement évolué, nous explique Jean Senellart, le directeur technique et innovation de Systran : « Il y a un an est apparue la traduction neuronale, et cela révolutionne complètement le monde, avec un avant et un après ».

Une machine qui cogite

La traduction neuronale ? Une technique qui fait appel au « deep learning », ou plus exactement à « un processus de codage/décodage » selon François Yvon, chercheur au LIMSI/CNRS qui y dirige notamment les activités de traduction automatique : « Les modèles utilisés depuis une quinzaine d’années ont été supplantés par des méthodes qui reposent aujourd’hui sur des réseaux de neurones. La phrase que l’on veut traduire est convertie en une suite de vecteurs de chiffres, et cette suite de vecteurs de chiffres, à son tour, est traduite en une phrase dans la langue voulue ». Une technique qui permet l’apprentissage de la machine car le processus n’est pas immédiat, et c’est en cela que le réseau de neurones a son importance. « Les réseaux de neurones se corrigent tout seuls. Le premier jour, ils savent déjà traduire. La traduction sera mauvaise, il n’y aura aucune cohérence, mais l’algorithme est déjà présent. Au fur et à mesure que l’on va dire à l’algorithme qu’il se trompe, il va améliorer ses sorties », nous explique Jean Senellart. Un mécanisme qui apprend à la machine comment traduire comme un traducteur humain : « Le réseau de neurones apprend une manière de transformer le français, par exemple, en une suite de chiffres, puis apprend à transformer cette suite de chiffres en anglais. Il apprend en réglant les paramètres de manière à ce que la séquence encodage/décodage reproduise la traduction humaine », complète François Yvon.

Mais qui va traduire au traducteur ?

Une technologie qui, si elle est bâtie par l’homme, semble presque lui échapper tellement son apprentissage est impressionnant. « Nous sommes dans une phase où la technologie est plus puissante que nous, nous savons la programmer, mais nous ne comprenons pas comment cela peut aussi bien fonctionner », confesse Jean Senellart. Un rapport à la machine complexe que constate également François Yvon : « Nous savons très bien décrire mathématiquement ce qu’il se passe, mais le problème est que nous ne savons pas quoi faire de ce que nous avons appris, car le traducteur ne peut pas interagir avec les matrices de chiffres que manipule le réseau. Schématiquement, il n’y a pas de mystère, en revanche le praticien ne peut pas exprimer sa connaissance dans cet univers-là. D’un côté la machine ne peut pas expliquer pourquoi elle a pris cette décision et de l’autre les traducteurs ne voient pas comment orienter le modèle neuronal pour partager leur savoir avec le système ».

Du support au droïde

Si le traducteur et la machine, malgré les nombreuses langues qu’ils ont en commun, ont encore du mal à se comprendre, ils s’apprécient déjà. Le centre de traduction de la Commission européenne commence à s’en servir comme support pour ses traducteurs professionnels. Dans le privé également, de nombreux acteurs ont compris l’avantage d’un tel outil. Après les nombreuses applications de traduction instantanée basées sur la traduction statistique, dont Google Translate, Jibbigo Translator, iTranslate, ou encore Systran Mobile Translator, les grands du numérique annoncent progressivement passer à la traduction neuronale. Google a notamment fait parler de lui fin 2016 lorsque deux chercheurs de la firme ont réussi à faire apprendre à leur intelligence artificielle à traduire une langue en « zéro-shot », c’est-à-dire sans avoir appris à la machine les corrélations sémantiques et grammaticales au préalable. De son côté, Systran a décidé de publier son framework de traduction neuronale en Open Source, nommé OpenNMT, en Décembre dernier, et compte à ce jour 1000 utilisateurs dont une cinquantaine de membres actifs au sein de sa communauté. La raison ? « Aujourd’hui les enjeux ne sont plus les codes mais les algorithmes. Nous avons donc choisi d’ouvrir notre code à notre communauté d’utilisateurs afin de garantir qu’il est bien à l’état de l’art ». Un travail d’équipe qui permettra peut-être à l’entreprise et au LIMSI/CNRS d’atteindre l’étape suivante, c’est-à-dire de créer un algorithme qui mêle reconnaissance vocale, traduction automatique et synthèse vocale, afin de pouvoir discuter avec une machine qui s’exprime dans plusieurs langues. Un C-3PO en somme.

Nicolas Pagniez