Recherchez une offre d'emploi

Thèse Modélisation et Apprentissage des Structures Sociales Signées à Partir de Corpus Textuels Vers une Cohérence Logique des Discours Médiatiques et Synthétiques H/F - 84

Description du poste

Avignon Université
Avignon - 84
CDD
Publié le 19 Mars 2026

Établissement : Avignon Université
École doctorale : Agrosciences et Sciences
Laboratoire de recherche : LIA - Laboratoire d'Informatique d'Avignon
Direction de la thèse : Rosa FIGUEIREDO
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

La complexité des dynamiques sociales contemporaines, exacerbée par la prolifération des flux d'information numériques, exige des outils d'analyse capables de capturer non seulement la présence d'interactions, mais aussi leur valence et leur structure logique. Les réseaux sociaux signés, où les relations sont caractérisées comme positives (soutien, amitié, confiance) ou négatives (opposition, hostilité, méfiance) (Cartwright & Harary, 1956), (Heider, 1944), offrent un cadre formel rigoureux pour cette étude. Cette thèse se propose de perfectionner les méthodologies d'extraction de ces structures à partir de corpus textuels médiatiques et d'explorer la génération de données synthétiques comme vecteur de simulation et de validation, tout en garantissant une cohérence logique stricte entre les assertions discursives et les propriétés topologiques des graphes résultants.

Les modèles de langage de grande taille (LLMs) ont profondément transformé le traitement automatique du langage naturel. Toutefois, ils échouent fréquemment à capturer la logique sociale globale sous-jacente aux discours.
Les interactions sociales exprimées dans le texte (alliances, oppositions, rivalités) peuvent être modélisées sous forme de graphes signés, où chaque arête dirigée représente une relation positive (+) ou négative () entre deux entités.
Cependant, l'articulation entre NLP, graphes signés et analyse structurelle demeure largement inexplorée, en particulier pour les discours multipolaires (au-delà du clivage binaire), pour vérifier la cohérence logique des textes générés, ou bien pour faire la comparaison structurelle de corpus médiatiques.

Quantifier la cohérence sociale des corpus synthétiques et pour cela développer un pipeline de Extraction d'entités et de relations tenant compte du point de vue (Stance-aware Entity-Relation Extraction).

Extraction et apprentissage des structures à partir de textes:
L'extraction de structures sociales signées à partir de corpus textuels constitue le pont entre le traitement du langage naturel (NLP) et l'analyse des réseaux (Teixeira et al., 2021). Le passage d'un discours narratif non structuré à une représentation relationnelle signée exige une compréhension fine des nuances linguistiques, des positions idéologiques et des contextes culturels. (Pangtey et. al. 2026)

De l'extraction d'entités à la modélisation de points de vue:

Le pipeline traditionnel de construction de graphes de connaissances (KG) comprend trois étapes : l'ingénierie ontologique, l'extraction de connaissances (entités et relations) et la fusion de connaissances. Les modèles de langage de grande taille (LLM) ont révolutionné ce paradigme en permettant une extraction générative directe à partir du texte (Bian, 2025). . Au lieu de modèles spécialisés pour la reconnaissance d'entités nommées (NER) et l'extraction de relations (RE), les LLM peuvent être sollicités par des prompts few-shot pour produire des triplets structurés (sujet, prédicat, objet) (Brazan, 2025).
La distinction entre analyse de sentiment et détection de point de vue est ici cruciale. Tandis que le sentiment évalue l'émotion exprimée, le point de vue ou positionnement (stance) identifie la position d'un auteur vis-à-vis d'une cible spécifique (Pour, Contre ou Neutre) (Walker V & Angst M, 2025). Les recherches montrent que le sentiment n'est souvent pas corrélé avec l'opinion réelle, rendant la détection de point de vue plus robuste pour la signature des liens sociaux (Burnham, 2025). L'utilisation de l'inférence en langage naturel (NLI) permet de traiter le texte source comme une prémisse et la relation supposée entre deux acteurs comme une hypothèse. Si le modèle prédit une contradiction, le lien est négatif ; s'il prédit une implication (entailment), il est positif.

Défis de l'implicite et du contexte médiatique
Les discours médiatiques regorgent de formes linguistiques complexes telles que l'ironie, le sarcasme et l'implicite, qui constituent des obstacles majeurs pour les règles artisanales (Walker V & Angst, 2025). L'interprétation de phrases manquant d'information contextuelle nécessite que le modèle possède une connaissance encyclopédique préalable, une force caractéristique des LLM pré-entraînés sur des corpus massifs (Ma et al., 2024). Cependant, l'utilisation de modèles 'boîte noire' introduit des risques de biais culturels et idéologiques, où le modèle peut projeter la vision du monde de ses créateurs lors de l'extraction des structures sociales (Buyl et al., 2026).

Génération de données synthétiques et simulation sociale
L'ajout d'une composante sur la génération de données synthétiques permet de transformer les apports de cette thèse d'un outil d'analyse descriptive en un outil de simulation prédictive et de validation expérimentale. Les données synthétiques sont des informations fabriquées artificiellement qui imitent les motifs et caractéristiques des données réelles, offrant une solution à la rareté des données annotées et aux préoccupations de confidentialité.

Évaluation de la fidélité structurelle et de la cohérence logique
L'évaluation des structures apprises et des données générées constitue le coeur de la validation scientifique de cette proposition. Il s'agit de garantir que le système produit non seulement du texte fluide, mais une réalité sociale cohérente et fidèle aux propriétés mathématiques des graphes signés .
L'évaluation des ces structures constitue une étape centrale afin de garantir que le graphe signé extrait reflète fidèlement les dynamiques relationnelles présentes dans le discours. Au-delà de la qualité linguistique de l'extraction, il s'agit d'examiner la cohérence structurelle globale du réseau obtenu. Cette analyse s'appuie sur la théorie de l'équilibre structurel introduite par Heider et formalisée en théorie des graphes par Harary. (Cartwright & Harary, 1956), (Heider, 1944).
Le graphe signé construit à partir du texte est analysé afin de mesurer son niveau de déséquilibre structurel, c'est-à-dire, le degré de tension induit par des configurations relationnelles contradictoires. Cette évaluation repose sur la résolution d'un problème d'optimisation visant à minimiser les arêtes dites « frustrées », correspondant aux incohérences entre signes et partition des acteurs. Le score obtenu constitue un indicateur quantitatif de conflictualité latente dans le discours.

L'approche permet ainsi de transformer une production textuelle en une mesure formelle de polarisation. Une forte valeur de déséquilibre peut signaler une fragmentation idéologique, des alliances instables ou des tensions discursives implicites. Inversement, un graphe proche de l'équilibre traduit une structuration cohérente des positions exprimées.

Enfin, la cohérence logique est également évaluée par la stabilité des partitions optimales et par la robustesse des mesures face aux variations d'extraction. Cette étape assure que le système ne produit pas uniquement un graphe plausible, mais une structure mathématiquement consistante avec les propriétés des graphes signés.

Plan prévisionnel:

Phase 1 - État de l'art et pipeline d'extraction (M1-M6):
Revue de la littérature : théorie des graphes signés, détection de position (stance detection).
Mise en place du pipeline d'extraction : LLM entités relations signes.

Phase 2 - Analyse des données (M7-M14):
Développement d'un modèle « stance-aware entity-relation extraction ».
Jeu de données annoté semi-automatiquement avec LLMs et validation humaine.

Phase 3 - Analyse structurelle (M15-M24):
Calcul d'indices de frustration et d'équilibre.
Évaluation de l'adaptabilité des problèmes de graphes résolus au problème que nous voulons résoudre
Éventuelle redéfinition du problème d optimization utilisé pour mesurer le conflit et l'équilibre dans les graphes signes
Tests sur corpus politiques (presse, discours parlementaires, réseaux sociaux).

Phase 4 - Applications et évaluation (M25-M36):
Étude comparative inter-médias (« divergence de visions du monde »).
Rédaction.