Hallucinant pour une meilleure traduction de texte | Nouvelles du MIT

Hallucinant pour une meilleure traduction de texte |  Nouvelles du MIT

En tant que bébés, nous babillons et imitons notre façon d’apprendre les langues. Nous ne commençons pas par lire du texte brut, ce qui nécessite une connaissance et une compréhension fondamentales du monde, ainsi qu’une capacité avancée à interpréter et à déduire des descriptions et des relations. Au contraire, les humains commencent lentement leur voyage linguistique, en pointant et en interagissant avec notre environnement, en basant nos mots et en percevant leur signification à travers le contexte du monde physique et social. Finalement, nous pouvons créer des phrases complètes pour communiquer des idées complexes.

De même, lorsque les humains commencent à apprendre et à traduire dans une autre langue, l’incorporation d’autres informations sensorielles, comme le multimédia, associées à des mots nouveaux et inconnus, comme des flashcards avec des images, améliore l’acquisition et la rétention du langage. Ensuite, avec suffisamment de pratique, les humains peuvent traduire avec précision de nouvelles phrases invisibles dans leur contexte sans les médias qui les accompagnent ; cependant, imaginer une image basée sur le texte original aide.

C’est la base d’un nouveau modèle d’apprentissage automatique, appelé VALHALLA, par des chercheurs du MIT, d’IBM et de l’Université de Californie à San Diego, dans lequel un réseau neuronal formé voit une phrase source dans une langue, hallucine une image de ce qu’elle ressemble, puis utilise les deux pour traduire dans une langue cible. L’équipe a constaté que leur méthode démontre une meilleure précision de la traduction automatique par rapport à la traduction de texte uniquement. De plus, cela a fourni un coup de pouce supplémentaire pour les cas avec de longues phrases, des langues manquant de ressources et des cas où une partie de la phrase source est inaccessible au traducteur automatique.

En tant que tâche essentielle dans le domaine de l’IA du traitement du langage naturel (TAL), la traduction automatique est une “technologie éminemment pratique qui est utilisée par des millions de personnes chaque jour”, déclare le co-auteur de l’étude Yoon Kim, professeur adjoint au département d’électricité du MIT. Ingénierie et informatique avec des affiliations au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et au MIT-IBM Watson AI Lab. Avec les progrès récents et significatifs de l’apprentissage en profondeur, “il y a eu un développement intéressant dans la façon dont on pourrait utiliser des informations non textuelles – par exemple, des images, de l’audio ou d’autres informations fondamentales – pour s’attaquer à des tâches pratiques impliquant le langage”, déclare Kim, car “lorsque les humains effectuent des tâches de traitement du langage, nous le faisons dans un monde ancré et situé. L’association d’images et de texte hallucinés lors de l’inférence, a postulé l’équipe, imite ce processus, fournissant un contexte pour des performances améliorées par rapport aux techniques de pointe actuelles, qui utilisent uniquement des données textuelles.

Cette recherche sera présentée à la conférence IEEE / CVF Computer Vision and Pattern Recognition ce mois-ci. Les co-auteurs de Kim sont l’étudiant diplômé de l’UC San Diego Yi Li et le professeur Nuno Vasconcelos, ainsi que les membres du personnel de recherche Rameswar Panda, Chun-fu “Richard” Chen, Rogerio Feris et le directeur d’IBM David Cox d’IBM Research et du MIT-IBM Watson Laboratoire d’IA.

Apprendre à halluciner à partir d’images

Lorsque nous apprenons de nouvelles langues et que nous traduisons, nous recevons souvent des exemples et de la pratique avant de nous aventurer seuls. Il en va de même pour les systèmes de traduction automatique ; Cependant, si des images sont utilisées pendant la formation, ces méthodes d’IA nécessitent également des aides visuelles pour les tests, ce qui limite leur applicabilité, explique Panda.

“Dans des scénarios réels, vous n’avez peut-être pas d’image par rapport à la phrase source. Donc, notre motivation était essentiellement : au lieu d’utiliser une image externe pendant l’inférence comme entrée, pouvons-nous utiliser l’hallucination visuelle – la capacité d’imaginer des scènes visuelles – pour améliorer les systèmes de traduction automatique ? » dit Panda.

Pour ce faire, l’équipe a utilisé une architecture d’encodeur-décodeur à deux transformateurs, un type de modèle de réseau neuronal adapté aux données dépendant de la séquence, comme le langage, qui peut prêter attention aux mots clés et à la sémantique d’une phrase. Un transformateur génère une hallucination visuelle et l’autre effectue une traduction multimodale en utilisant les sorties du premier transformateur.

Pendant la formation, il y a deux flux de traduction : une phrase source et une image de vérité terrain qui lui est associée, et la même phrase source qui est visuellement hallucinée pour former une paire texte-image. Tout d’abord, l’image et la phrase de vérité-terrain sont symbolisées en représentations qui peuvent être manipulées par des transformateurs ; pour le cas de la phrase, chaque mot est un jeton. La phrase source est à nouveau symbolisée, mais cette fois passée à travers le transformateur d’hallucination visuelle, produisant une hallucination, une représentation d’image discrète de la phrase. Les chercheurs ont incorporé une autorégression qui compare la vérité au sol et les représentations hallucinées pour la congruence – par exemple, les homonymes : une référence à un animal “chauve-souris” n’est pas hallucinée comme une batte de baseball. Le transformateur d’hallucination utilise ensuite la différence entre eux pour optimiser ses prédictions et sa sortie visuelle, en s’assurant que le contexte est cohérent.

Les deux ensembles de jetons sont ensuite passés simultanément à travers le transformateur de traduction multimodal, chacun contenant la représentation de la phrase et l’image hallucinée ou de vérité au sol. Les sorties de traduction de texte tokenisées sont comparées avec l’objectif d’être similaires les unes aux autres et à la phrase cible dans une autre langue. Toutes les différences sont ensuite transmises au transformateur de traduction pour une optimisation supplémentaire.

Pour les tests, le flux d’images de vérité au sol diminue, car les images ne seraient probablement pas disponibles dans les scénarios de tous les jours.

« À notre connaissance, nous n’avons vu aucun travail qui utilise réellement un transformateur d’hallucination conjointement avec un système de traduction multimodal pour améliorer les performances de la traduction automatique », déclare Panda.

Visualisation du texte cible

Pour tester leur méthode, l’équipe a confronté VALHALLA à d’autres méthodes de traduction multimodales et textuelles de pointe. Ils ont utilisé des ensembles de données de référence publics contenant des images de vérité au sol avec des phrases sources, et un ensemble de données pour traduire des articles de presse en texte uniquement. Les chercheurs ont mesuré ses performances sur 13 tâches, allant de la traduction dans des langues bien dotées (comme l’anglais, l’allemand et le français), des langues sous-financées (comme l’anglais vers le roumain) et non anglaises (comme l’espagnol vers le français). Le groupe a également testé différentes tailles de modèles de transformateurs, comment la précision change avec la longueur de la phrase et la traduction dans un contexte textuel limité, où des parties du texte étaient cachées aux traducteurs automatiques.

L’équipe a observé des améliorations significatives par rapport aux méthodes de traduction de texte uniquement, améliorant l’efficacité des données, et que les modèles plus petits fonctionnaient mieux que le modèle de base plus large. Au fur et à mesure que les phrases devenaient plus longues, les performances de VALHALLA par rapport aux autres méthodes augmentaient, ce que les chercheurs attribuaient à l’ajout de mots plus ambigus. Dans les cas où une partie de la phrase était masquée, VALHALLA a pu récupérer et traduire le texte original, ce que l’équipe a trouvé surprenant.

D’autres découvertes inattendues ont surgi : « Là où il n’y avait pas autant de formations [image and] paires de texte, [like for under-resourced languages]les améliorations étaient plus importantes, ce qui indique que la mise à la terre des images aide dans les régimes à faible volume de données », explique Kim. « Une autre chose qui m’a assez surpris était cette amélioration des performances, même sur des types de texte qui ne sont pas nécessairement facilement connectables Par exemple, ce n’est peut-être pas si surprenant si cela aide à traduire des phrases visuellement saillantes, comme “il y a une voiture rouge devant la maison”. [However]même en texte seul [news article] domaines, l’approche a pu améliorer les systèmes textuels.

Bien que VALHALLA fonctionne bien, les chercheurs notent qu’il a des limites, exigeant que des paires de phrases soient annotées avec une image, ce qui pourrait rendre son obtention plus coûteuse. Il fonctionne également mieux dans son domaine de base et non dans les articles de presse en texte uniquement. De plus, notent Kim et Panda, une technique comme VALHALLA est toujours une boîte noire, avec l’hypothèse que les images hallucinées fournissent des informations utiles, et l’équipe prévoit d’étudier quoi et comment le modèle apprend afin de valider ses méthodes.

À l’avenir, l’équipe prévoit d’explorer d’autres moyens d’améliorer la traduction. “Ici, nous nous concentrons uniquement sur les images, mais il existe d’autres types d’informations multimodales – par exemple, la parole, la vidéo ou le toucher, ou d’autres modalités sensorielles”, explique Panda. “Nous pensons qu’une telle base multimodale peut conduire à des modèles de traduction automatique encore plus efficaces, bénéficiant potentiellement à la traduction dans de nombreuses langues à faibles ressources parlées dans le monde.”

Cette recherche a été soutenue, en partie, par le MIT-IBM Watson AI Lab et la National Science Foundation.

Related posts

La technologie de reconnaissance faciale arrive au Virginia Hospital Center

cialiszep

La croissance de la technologie de couche 2 montre le potentiel de rivaliser avec la couche 1 : Huobi Research Institute

cialiszep

Le Homeland Security Technology Consortium annonce le Security Innovation Challenge, 25 000 $ en prix

cialiszep

La technologie Ferrari F1 pour booster Le Mans Hypercar Challenge

cialiszep

Bitech Technologies annonce la validation de la technologie pour

cialiszep

Les plus grandes tendances technologiques dans le domaine du vin et de la vinification

cialiszep