Les modèles linguistiques artificiels ne nous apprennent rien sur le langage -

🔥 Produits recommandés : Canon EOS R6 II • DJI Mini 4 Pro • MacBook Pro M4

Points clés

Les grands modèles linguistiques (LLM) sont capables de traiter rapidement et avec précision de grandes quantités de données.
Cependant, cela ne suffit pas à comprendre comment le cerveau humain réagit au langage.

Une vague de recherches neuroscientifiques a tenté d’exploiter la puissance statistique sophistiquée des grands modèles de langage (LLM) pour explorer la façon dont le cerveau humain réagit au langage. Cependant, certains linguistes estiment que la question de savoir comment ce type de recherche expose de nouveaux faits sur le langage et peut, en fait, constituer un obstacle à de véritables découvertes scientifiques, n’a pas été bien abordée.

L’augmentation de la précision des modèles de traitement du langage naturel (NLP) au cours des années 2010 s’est accompagnée d’un net sacrifice en termes d’interprétabilité. En effet, plus les modèles linguistiques sont puissants et précis, moins ils semblent plausibles d’un point de vue cognitif. Même si les grands modèles linguistiques « apprennent » des aspects du langage humain, comme les relations syntaxiques, avec plus de précision que les petits modèles, dans le même temps, la nécessité pour ces grands modèles d’apprendre la syntaxe diminue pour la plupart des tâches pour lesquelles nous avons réellement besoin d’eux.

D’autres problèmes sont apparus. Les humains analysent les phrases de manière hiérarchique, alors que les LLM semblent avoir de forts biais linéaires. Certains discutent de cette question sur un ton qui met moins l’accent sur l’importance de la créativité et de la génération linguistiques, la caractéristique du langage humain. Idan Blank a récemment fait remarquer que « le traitement du langage est sans doute plus qu’une simple prédiction » – tout comme l’attention visuelle est « sans doute » plus qu’une simple photoréception.

Modèles de langue

Passant outre une histoire riche et controversée, un thème important de la linguistique théorique récente concerne le fait que de nombreuses propriétés de la théorie linguistique, initialement reprises des systèmes formels et des modèles mathématiques des années 1950-70, ne sont pas appropriées pour caractériser la psychologie humaine. Plusieurs de ces thèmes ont des implications importantes sur la manière dont nous utilisons les LLM.

Certaines théories linguistiques tendent à être plus étroitement liées à la recherche utilisant les LLM en raison de leur intérêt pour le pouvoir explicatif du raisonnement général du domaine. Par exemple, le cadre de la grammaire de construction repose sur l’hypothèse selon laquelle les humains mémorisent un grand nombre de constructions à plusieurs unités et manipulent ensuite ces objets mémorisés. Pourtant, avec des constructions mémorisées, nous avons toujours besoin d’une sorte de système génératif pour les modifier ou pour les former en premier lieu.

Les cadres tels que la grammaire de construction confondent les artefacts du système linguistique (les résultats du langage, comme les constructions) avec l’objet d’étude lui-même. Les « constructions » sont un résultat du langage, elles ne le constituent pas. Elles ne constituent pas un objet plausible d’investigation psycholinguistique : Il y a beaucoup trop de facteurs indépendants qui conspirent dans chaque construction donnée.

Ces objections sont importantes pour notre compréhension des modèles artificiels. Nous ne pouvons pas prendre un grand nombre de constructions (c’est-à-dire des sorties linéarisées de la procédure informatique générative sous-jacente de la syntaxe) et espérer expliquer le langage humain. Nous obtiendrons certainement des approximations statistiquement significatives pour les données d’analyse syntaxique et même les réponses neuronales en nous concentrant sur les constructions et leurs statistiques de distribution, mais ces questions sont beaucoup trop grossières pour faire l’objet d’une théorie linguistique.

Neurobiologie

Le mois dernier, un article du laboratoire d’Evelina Fedorenko du MIT, publié dans Neurobiology of Language, affirmait que « le contenu sémantique lexical, et non la structure syntaxique, est le principal facteur contribuant à la similarité ANN-cerveau des réponses IRMf dans le réseau linguistique ». Pourtant, ce n’est pas parce que les ANN s’alignent sur les réponses BOLD (blood oxygenation level-dependent) de l’IRMf par le biais de la lexico-sémantique que les informations syntaxiques ne sont pas représentées au niveau neuronal.

Les effets documentés dans l’article du laboratoire Fedorenko sont fortement liés aux mots de contenu, qui ont un contenu sémantique conceptuel clair, alors que nous savons, grâce à la recherche comportementale, que les mots de fonction n’entraînent que très peu de coûts de traitement. Toutefois, nous savons également que la structure grammaticale fonctionnelle est essentielle pour fournir des informations syntaxiques, et certains linguistes sont même allés jusqu’à affirmer que la diversité interlinguistique émerge exclusivement des informations grammaticales fonctionnelles (par opposition aux mots de contenu tels que les noms et les verbes).

Fedorenko et ses collègues concluent ainsi : « Le résultat critique, à savoir que le contenu lexico-sémantique est le principal facteur de similarité entre les représentations ANN et les représentations neuronales, est conforme à l’idée selon laquelle l’objectif du système linguistique humain est d’extraire le sens des chaînes linguistiques. Ce qui passe inaperçu, c’est que le « contenu lexico-sémantique » apporte également des modifications aux informations syntaxiques.

Il serait difficile de trouver quelqu’un qui ne soit pas d’accord avec l’idée que les humains utilisent le langage pour en extraire du sens. Il ne s’agit pas d’une découverte scientifique. À ma connaissance, il n’existe aucune prédiction de la linguistique théorique concernant l’échelle d’activité ou de complexité neuronale à laquelle la syntaxe est codée. Si elle ne se trouve pas dans le signal BOLD, tant pis pour l’IRMf.

Un autre article du laboratoire Fedorenko datant du mois d’août utilise des modèles d’encodage basés sur le GPT et des données d’IRMf pour prédire avec précision les réponses neuronales au langage. Les auteurs concluent : « Une analyse systématique des phrases sélectionnées par le modèle révèle que la surprise et la bonne forme de l’entrée linguistique sont des déterminants clés de l’intensité de la réponse dans le réseau linguistique.

Il n’y a aucune raison, dans le cadre de la théorie linguistique, de douter de l’importance du traitement de la surprise. Fedorenko et ses collègues testent si leur modèle de langage prédit les réponses à des phrases censées déclencher une activité minimale du réseau linguistique (« Nous étions assis sur le canapé ») par rapport à des phrases censées déclencher une activité maximale (« Les gens sur Insta sont comme ‘Gross' » ; « Jiffy Lube des thérapies » ; « Remarquez comment vous avez réagi à WTF »). Ces phrases sont souvent tirées de l’utilisation des médias sociaux.

Pourtant, des notions telles que « l’accès lexical » et « l’intégration sémantique » (qui sont rejetées par Fedorenko et ses collègues parce qu’elles sont dépassées) font partie intégrante des théories. Les mesures « surprenantes » ne sont pas des théories. Ce qui est encore plus surprenant, c’est que Fedorenko et ses collègues finissent par montrer que les mesures de plausibilité sémantique et de grammaticalité expliquent toutes deux la variance au-delà de la surprise. Pourtant, ils rapportent ces résultats sans proposer une quelconque explication théorique à ce sujet.

Ainsi, alors que les auteurs commencent leur article en affirmant que les modèles du cerveau fondés sur la théorie linguistique sont problématiques et démodés, ils finissent par soutenir ces concepts traditionnels.

Comme beaucoup d’autres, je ne suis pas convaincu que la meilleure façon de construire une science du traitement du langage dans le cerveau soit d’utiliser l’IRMf et d’exposer les participants à des phrases telles que « People on Insta be like ‘Gross' », puis de mesurer à quel point le réseau linguistique est surpris et de voir si cela correspond à un modèle d’encodage.

Ces résultats ont été largement célébrés à la fois sur les médias sociaux et dans certaines publications scientifiques plus établies. Les neurosciences fondées sur l’exploitation novatrice de modèles statistiques dans les données neuronales et linguistiques expliquent en partie la question posée par The Guardian en 2022 : « Sommes-nous en train d’assister à l’aube de la science post-théorique ?

Si c’est le cas, il n’y a pas lieu de se réjouir.