Les modèles d'IA comme GPT comprennent-ils vraiment la plaisanterie ? -

« L’humour est la capacité de voir les trois faces d’une même pièce. – Ned Rorem, compositeur américain (1923-2022)

🔥 Produits recommandés : Canon EOS R6 II • DJI Mini 4 Pro • MacBook Pro M4

Source : Volzi/Pixabay

Un lauréat du « Best Paper Award« , récemment présenté lors de la 61e réunion annuelle de l’Association for Computational Linguistics (ACL’23) qui s’est tenue en juillet à Toronto, au Canada, adopte une approche scientifique pour sonder la capacité de l’intelligence artificielle (IA) à comprendre l’humour.

« Les grands réseaux neuronaux peuvent désormais générer des blagues, mais comprennent-ils vraiment l’humour ? », s’interroge l’auteur principal Jack Hessel, PhD, chercheur à l’Allen Institute for AI (AI2), avec les coauteurs Ana Marasović, PhD, professeur adjoint à la Kahlert School of Computing de l’Université de l’Utah, Jena Hwang, PhD, ingénieur de recherche à AI2, Lillian Lee, PhD, professeur Charles Roy Davis à l’Université de Cornell, Jeff Da d’Amazon, Rowan Zellers, PhD, chercheur à OpenAI, l’humoriste renommé Robert Mankoff, président de Cartoon Collections, rédacteur en chef des dessins humoristiques de l’hebdomadaire numérique Air Mail et rédacteur en chef de longue date des dessins humoristiques du magazine The New Yorker, et Yejin Choi, PhD, professeur associé à l’université de Washington et responsable principal de la recherche à l’Allen Institute for Artificial Intelligence.

Les données utilisées pour cette étude proviennent de plus de 700 semaines pendant 14 ans de concours de légendes hebdomadaires organisés par le New Yorker. Dans le cadre de ces concours, les lecteurs sont invités à envoyer des légendes amusantes pour une caricature, et la légende gagnante est votée par les lecteurs parmi les trois meilleures légendes sélectionnées par les rédacteurs en chef sur des milliers de soumissions. En outre, ils ont utilisé des estimations de qualité provenant du crowdsourcing pour certains concours.

« Ces tâches sont difficiles car le lien entre la légende gagnante et l’image peut être très subtil, et la légende peut faire des allusions ludiques à l’expérience humaine, à la culture et à l’imagination« , écrivent les scientifiques.

À l’aide de ces données, les chercheurs ont testé la capacité de différents modèles d’IA à associer des dessins animés à des blagues, à repérer la légende gagnante et à expliquer pourquoi la légende associée à une image est humoristique, en utilisant une approche par image utilisant des pixels et la vision artificielle avec des modèles ayant accès à des images de dessins animés, ou une approche par description avec des résumés textuels de dessins animés rédigés par des êtres humains.

« Nous constatons que les deux types de modèles ont des difficultés dans les trois tâches », ont indiqué les chercheurs.

Les chercheurs ont découvert qu’il y a encore beaucoup à faire pour que l’IA parvienne à une compréhension de l’humour proche de celle de l’homme. Pour l’approche par pixels, un modèle d’image et de texte affiné CLIP ViT-L/14 @ 366 px et OFA Huge, un modèle pré-entraîné qui unifie les modalités (telles que la vision et le langage) et les tâches dans un cadre d’apprentissage simple de séquence à séquence.

Le modèle d’IA le plus performant pour l’approche par pixel, le CLIP ViT-L/14, n’a obtenu qu’une précision de 62 %, ce qui est bien inférieur aux 94 % obtenus par les humains pour l’association de légendes à des dessins animés dans l’approche par pixel.

En ce qui concerne l’approche descriptive, le modèle GPT-4 (5-shot) a obtenu la plus grande précision (84,5 %) pour la tâche d’association de légendes à des dessins animés, surpassant les modèles T5-Large, T5-11B, GPT3-17B affiné et GPT 3.5 (5-shot).

Pour la tâche consistant à prédire les trois meilleures légendes du rédacteur en chef du New Yorker, le GPT-3 à réglage fin a atteint une précision de 69,8 % et le GPT-4 une précision de 68,2 %, ce qui n’est que légèrement supérieur à la précision de 64,6 % obtenue par l’estimation humaine. Pour la prédiction des choix de la foule, l’estimation humaine a été la plus performante avec une précision de 83,7 %, suivie par GPT-4 avec une précision de 73,3 % seulement.

En outre, lorsqu’il s’agissait d’expliquer des blagues, les chercheurs ont constaté que même le modèle d’IA le plus performant, GPT-4, n’arrivait pas à la cheville des explications écrites par des humains.

« Nous avons démontré que les modèles de vision et de langage actuels ne peuvent toujours pas reconnaître la pertinence des légendes, les évaluer (au moins dans le sens de la reproduction des classements de la foule) ou expliquer le concours de légendes du New Yorker aussi efficacement que les humains », ont indiqué les chercheurs.