Traduction automatique : le service tchèque CUBBITT pourrait rivaliser avec la traduction humaine
CUBBITT est le service de traduction automatique se rapprochant le plus de la traduction humaine. Ce logiciel tchèque pourrait bien révolutionner les relations internationales et changer la vie des expatriés. A l’heure actuelle, il traduit en six langues différentes : le tchèque, le français, l’anglais, l’allemand, le polonais et le russe.
Le service de traduction automatique CUBBITT, acronyme de Charles University Block-Backtranslation-Improved Transformer Translation, est développé par une équipe de chercheurs de l’Université Charles de Prague à partir du deep learning sur le modèle de réseaux de neurones convolutifs.
L’objectif est d’accumuler le plus de données possibles dans différentes langues pour créer des corpus. Pour multiplier les données, les spécialistes utilisent plusieurs sources. La banque de données la plus importante est la documentation de l’Union européenne, car elle est obligée de traduire l’ensemble de ses documents en différentes langues et de les laisser accessibles en licence libre.
La technique du deep learning et l’accumulation de données dans plusieurs langues n’ont néanmoins rien de nouveau et n’expliquent pas la réussite de CUBBITT, puisque quasiment tous les services de traduction automatique reposent sur ce système. CUBBITT utilise même un réseau mis à disposition par Google, Transformer.
Selon Martin Popel, ingénieur en linguistique à la Faculté de mathématiques et de physique de l'Université Charles, c’est en utilisant la rétrotraduction que le système tchèque innove :
« Notre innovation est une façon particulière d'équilibrer les sources. Nous utilisons des données authentiques en tchèque et en anglais, mais aussi des données monolingues en tchèque, que nous traduisons en anglais. Nous entraînons la traduction de l'anglais vers le tchèque sur ces données dites "synthétiques", mais nous équilibrons également la traduction avec les données authentiques. »
En 2018, CUBBITT avait déjà fait parler de lui en remportant le concours organisé par Workshop on Machine Translation (WMT) dans la catégorie traduction d’actualités de l’anglais vers le tchèque et du tchèque vers l’anglais. Il avait obtenu de meilleurs résultats que ses célèbres concurrents étrangers comme Google Traduction ou Deepl. Pendant ce concours, il avait en effet été le seul logiciel qui avait réussi à être meilleur que la traduction humaine représentée par une agence professionnelle.
L’une des critiques que les scientifiques ont pu faire à ce concours est que les phrases traduites ne forment jamais un texte : elles sont traduites aléatoirement, sans contexte préalable, et ne forment pas un tout unifié. Or, des spécialistes ont pu montrer ces dernières années que cela conduisait à une surestimation des services de traduction automatique étant donné que les problèmes de concordance, d’expression polysémique ou ambiguë, et de cohérence textuelle sont oubliés lors de l’évaluation et qu’ils constituent les plus grandes difficultés pour les services de traduction automatique.
Pour corriger ces problèmes, l’équipe de chercheurs de l’université Charles a procédé à une nouvelle évaluation en 2020, mais cette fois-ci en présentant le contexte des documents aux membres du jury. Les résultats sont encore une fois très encourageants : en ce qui concerne l’adéquation du sens, CUBBITT est meilleur que la traduction humaine avec 52% des phrases mieux notées et seulement 26% des phrases moins bien notées. En termes de fluidité en revanche, CUBBITT est moins bon que la traduction humaine, avec de meilleurs résultats dans seulement 26% des cas et de pires résultats dans 48% des cas.
Les chercheurs ont par ailleurs montré que la qualité de la traduction de CUBBITT dépendait aussi de certains facteurs propres aux textes. La longueur des phrases peut en effet avoir une influence sur les résultats, CUBBITT semblant mieux traduire les phrases longues – que ce soit au niveau de l’adéquation, de la fluidité et de la qualité globale – que la traduction humaine.
Le type de documents a lui-aussi une influence sur la réussite de la traduction de CUBBITT : le logiciel a de meilleurs résultats lorsqu’il traduit des textes portant sur les actualités ou sur la politique et de moins bons résultats lorsqu’il s’agit de traduire un texte sur les arts ou sur le sport.
Pour déterminer l’efficacité de CUBBITT, l’équipe de chercheurs tchèques a enfin réalisé un test de Turing pour voir s’il était aisé de distinguer traduction automatique et traduction humaine. A titre comparatif, les scientifiques ont également fait ces tests avec le logiciel Google Traduction et ont obtenu les résultats suivants : pour 16 évaluateurs, un seul n’a pas su distinguer les traductions automatiques des traductions humaines.
Lorsque les équipes ont testé CUBBITT avec 15 autres participants, neuf personnes – trois traducteurs professionnels, trois chercheurs en traduction automatique et trois autres participants - n’ont pas su distinguer si le traducteur était un humain ou une machine. Les résultats sont donc meilleurs pour CUBBITT et préfigurent que la traduction automatique pourrait dans le futur atteindre le même niveau que la traduction humaine.
Néanmoins, Martin Popel nuance en affirmant que la traduction automatique n’en est pas encore à remplacer la traduction humaine car elle est bien moins bonne dans le domaine de la fiction :
« Je dois souligner que nous nous concentrons sur la qualité de la traduction des actualités, et non sur la fiction ou la poésie. Je pense que ces domaines sont définitivement plus difficiles à traduire par des machines et nous avons toujours besoin des humains. C'est inestimable. Toutefois, pour certains usages où des traducteurs humains étaient auparavant nécessaires, nous pouvons désormais remplacer les humains par des traducteurs automatiques avec de très bons résultats. »
CUBBITT est accessible gratuitement sur le site www.lindat.cz/cubbitt.