Thèse Traduction Interdialectale Automatisée en Nawatl - Français Langue Autochtone du Mexique H/F - Doctorat.Gouv.Fr

CDD
Doctorat.Gouv.Fr

Publié le 17 Mars 2026

Postuler sur le site du recruteur

Les missions du poste

Établissement : Avignon Université École doctorale : Agrosciences et Sciences Laboratoire de recherche : LIA - Laboratoire d'Informatique d'Avignon Direction de la thèse : Juan-Manuel TORRES-MORENO ORCID 0000000243921825 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-21T23:59:59 Nous développerons des algorithmes pour la traduction interdialectale entre variétés du nawatl (langue autochtone nationale du Mexique) et le français. En effet, les textes disponibles dans cette -langue (peu dotée de ressources informatisées), sont rares et la diversité linguistique est très grande. Également, leurs diverses graphies compliquent plus la tâche. Dans au moins 4 régions (Centrale, Nord, Pacifique, Golfe) le nawatl a trop évolué (les vocabulaires différent) et leurs caractéristiques grammaticales sont distinctes. La langue est complexe au niveau grammatical, agglutinante et polysynthétique et les ressources informatisées sont pratiquement inexistantes. Un système inter-dialectal avec des modèles IA profonds aura un impact social car il permettra de mieux communiquer entre les communautés nahuas et vers l'extérieur des communautés. La langue nawatl [3,4], une des langues nationales du Mexique, parlée par environ 2,5 millions de personnes (Amérique du Nord et Centrale) compte 30 variétés dialectales selon l'INALI (Institut national des langues indigènes). Le nawatl est de plus en plus utilisé pour la production de textes académiques (thèses, manuels, articles et livres scientifiques) qui, compte tenu du développement de l'alphabétisation académique et de la production de textes sous forme numérique, génèrent des besoins d'archivage, enregistrement, classification et organisation pour une meilleure diffusion. Pour cette raison, ce défi socio-linguistique, implique une opportunité pour développer des outils informatiques intéressants pour le public (nawaphone ou pas). Or, cette diversité graphique et dialectale pose des problèmes importants pour leur traitement automatisé et même pour les personnes [6]. Cette diversité, qui témoigne de l'évolution historique et culturelle des communautés parlant la langue nawatl au cours des deux derniers siècles, a été considérée comme un facteur que les locuteurs eux-mêmes ont perçu comme une faiblesse. Cela est d'autant plus flagrant qu'il n'existe pas de variété standard reconnue du nawatl, ce qui conduit à considérer l'espagnol comme langue pivot. Cela ne favorise pas la possibilité de nouveaux processus de standardisation et d'apprentissage des variations linguistiques en tant que communautés linguistiques. Dans le cas de la communication écrite, ce phénomène est encore plus marqué. En plus, la rareté des corpus des langues autochtones ou -langues [1,2] vient encore sajouter à ces difficultés. En raison des problèmes évoqués, il n'est pas simple de constituer des corpus ayant des bonnes propriétés (en taille et qualité) pour l'apprentissage automatique. En effet, notre projet NAHU² a servit à la compréhension basique du nawatl [4]; au développement des algorithmes de compression des embeddings et à la constitution d'un nouveau corpus nawatl, -yalli [5]. Le nawatl étant une langue agglutinante et polysynthétique, nous utilisons des représentations de mots et tokens afin de pouvoir extraire des caractéristiques sémantiques fondamentales (la racine des verbes et leurs conjugaisons). Dans ce projet nous nous proposons d'utiliser des techniques d'IA et de linguistique computationnelle pour créer un traducteur automatique inter-dialectal (TAI). La traduction automatique (TA) est un problème qui consiste à automatiser la tâche de traduction d'une phrase vers une autre langue cible. Les caractéristiques distinctives des langues autochtones [10], telles que la morphologie polysynthétique, les variations morphologiques importantes et l'orthographe non standardisée, posent des défis particuliers aux modèles de TA qui reposent sur la correspondance exacte au niveau lexical ou de caractères, en particulier lorsque ces mesures n'ont pas été spécifiquement testées dans ces langues [13]. D'autre part, les modèles IA basés sur des LLM (Mistral, Gemini, etc.), nécessitent un volume trop important de données [9] pour saisir la représentation linguistique sous-jacente, ce qui n'est pas disponible pour les -langues. Près de la moitié des 7000 langues parlées dans le monde sont actuellement menacées. Les experts prévoient que près de 1500 d'entre elles pourraient disparaître d'ici la fin du siècle en raison de plusieurs facteurs (mondialisation, croissance économique, soutien insuffisant accordé aux -langues) [7]. Les langues autochtones ne sont pas seulement des joyaux culturels, elles recèlent également des perspectives et une cosmovision unique. La TA de ces langues représente un défi de taille en raison de la rareté des ressources numériques et des corpus parallèles. Cependant, le nawatl a fait l'objet de quelques études comme la TA statistique (SMT) et la TA neuronale (NMT), dans des réseaux neuronaux récurrents (RNN) [11,12]. Mais il n'y a aucune étude de TAI entre les principales variétés dialectales nawatl, à notre connaissance. Au niveau phraséologique, voici un exemple de la diversité et de la complexité évoquées, avec la phrase: «Il y avait un homme marié qui avait une femme» qui peut se traduire par:
Occidental: Niman kataya se lakal munamiktijtuk kipiataya isiua
Central: Melak yokatka sentetl tlakatl monamiktitok kipiaya un isowah / Nelli katki se tlakatl monamiktihtok okipiyaya in isiwaw
Huasteca: Nelia itstoya se tlakatl kipiayaya ni isiwaj
Oriental: Onoya se tagat kipiaya monamiktitok ipalmiya / Nemik se takat munamiktijtuk kipiatuya ne isiwaw
Les objectifs du projet consistent d'abord, à créer un classifieur de dialectes. Ensuite, à développer un segmenteur (tokeniseur) efficace de mots nawatl, et puis à développer des prototypes d'un Traducteur Automatique Interdialectal (TAI).
Questionnement scientifique: Ce projet de thèse abordera plusieurs problè-mes, dont leur résolution permettra de lever des verrous scientifiques pluridisci-plinaires importants: i/ Identification automatique des variétés nawatl: La problématique scientifique concerne la détection via des classifieurs statistiques et neuronaux [14,15,16] des variétés dialectales nawatl. ii/ Segmenteur de mots nawatl (tokeniseur) : La problématique concerne la segmentation automatique (par apprentissage et avec des règles linguistiques) des mots (agglutinés et poly-synthétiques) de textes venant des variétés dialectales. iii/ Traducteur inter-dialectal nawatl: à l'aide d'apprentissage automatique et profond sur des corpus nawatl (allignés ou pas) et des reglès linguistiques nous développerons un TAI interdialectal.
Tout cela soulève certaines questions scientifiques: Quels transformateurs sont les meilleurs, les plus adaptés ou à utiliser dans le cas du nawatl ? Quel genre de tokeniseurs utiliser? La classification dialectale peut aider à développer d'autres genre de traducteurs ? Il vaut mieux s'appuyer sur une langue pivot pour bien saisir la sémantique sous-jacente ? Ce sont toutes des questions ouvertes auxquelles nous essaierons de répondre dans ce projet de thèse. Nous utiliserons des outils TAL et d'apprentissage profond [9] afin de pouvoir constituer, tout d'abord améliorer l'unificateur de variétés dialectales, un classificateur dialectal (n-grammes et neuronal), puis un segmenteur de mots, qu'il soit statistique, basé sur des règles, par apprentissage ou leur combinaison. Par la suite, nous allons concevoir et développer un traducteur inter-dialectal vers une langue pivot, puis vers le français basé sur des représentations riches de mots et transformateurs. Ces trois tâches sont toutes originales à notre connaissance. Nous allons combiner la puissance des méthodes de apprentissage profond et la simplicité des méthodes TAL pour cela. En fin, des évaluations (quantitatives et qualitatives) s'avèrent indispensables pour mesurer les résultats produits par nos systèmes.

Le profil recherché

Pour ce projet nous recherchons des candidat-e-s ayant une certaine expérience en programmation et algorithmique. Il est intéressant que le candidat-e sache programmer dans au moins 2 de langages suivants: C/C++, python, perl, ruby, prolog, docker. Également elle/il doit être à l'aise dans la programmation bash sur GNU/Linux. Nous souhaitons également que le candidat-e soit disposé-e à étudier des algorithmes, packages et techniques d'intelligence artificielle et apprentissage profond. Il faut des connaissances en mathématiques (algèbre linéaire et optimisation principalement). La connaissance des langues nawatl et espagnol seront un vrai atout.

Compétences requises

Traduction
Espagnol
Français

Postuler sur le site du recruteur

Thèse Traduction Interdialectale Automatisée en Nawatl - Français Langue Autochtone du Mexique H/F - Doctorat.Gouv.Fr

Les missions du poste

Le profil recherché

Compétences requises

Ces offres pourraient aussi vous correspondre.

Thèse Traduction dans les Langues Très Peu Dotées de Ressources Informatisées le Cas de la Traduction Interdialectale en Nawatl du Mexique H/F

Recherches similaires

L’emploi par métier dans le domaine Service à Avignon