L'intelligence exige plus qu'une récompense -

🔥 Produits recommandés : Canon EOS R6 II • DJI Mini 4 Pro • MacBook Pro M4

Points clés

Les chercheurs de DeepMind affirment que la maximisation de la récompense suffit à l’intelligence.
Les échecs de la psychologie behavioriste montrent les limites de l’apprentissage par la récompense.
L’intelligence humaine nécessite la génération contrainte de représentations créatives.

DeepMind est une société d’intelligence artificielle appartenant à la société mère Google qui a obtenu des résultats remarquables dans des jeux tels que le jeu de Go et dans la résolution de problèmes difficiles tels que la prédiction du pliage des protéines. Ce succès découle de méthodes informatiques puissantes qui combinent l’apprentissage en profondeur dans des réseaux neuronaux à plusieurs couches et l’apprentissage par renforcement qui récompense les actions qui permettent d’atteindre les objectifs. Dans un article récent publié dans une revue d’IA de premier plan, quatre auteurs de DeepMind affirment que leur approche se généralise pour atteindre l’intelligence générale (Silver, et al., 2021). Cependant, ils sous-estiment la créativité qui opère dans le langage humain et la résolution de problèmes à travers l’opération de génération contrainte de représentations

Silver et ses co-auteurs défendent l’affirmation suivante (p. 4) :

Hypothèse (la récompense est suffisante). L’intelligence, et les capacités qui lui sont associées, peuvent être considérées comme servant à maximiser la récompense d’un agent agissant dans son environnement.

La défense de cette hypothèse consiste en des arguments selon lesquels la récompense est suffisante pour la connaissance, l’apprentissage, la perception, l’intelligence sociale, le langage, la généralisation, l’imitation et l’intelligence générale.

Le philosophe George Santayana a prévenu que ceux qui ne se souviennent pas du passé sont condamnés à le répéter. L’apprentissage par la récompense a été mis en avant par des psychologues behavioristes tels qu’Edward Thorndike et B. F. Skinner et a permis d’expliquer de nombreux types d’actions animales. La loi de l’effet de Thorndike stipule ce qui suit : « Les réponses qui produisent un effet satisfaisant dans une situation donnée ont plus de chances de se reproduire dans cette situation, et les réponses qui produisent un effet désagréable ont moins de chances de se reproduire dans cette situation. Cette loi est vraie jusqu’à un certain point, mais ses limites sont devenues évidentes dans les années 1960, lorsque le behaviorisme a été supplanté par la psychologie cognitive.

l’article continue après l’annonce

B. F. Skinner a tenté d’expliquer le langage humain sur la base des principes behavioristes du stimulus, de la réponse et de la récompense, mais il a été vivement critiqué par Noam Chomsky (1959), qui développait sa propre théorie du langage (1972) basée sur des règles et des représentations internes qui montraient que le langage allait bien au-delà de l’apprentissage par renforcement. Chomsky mettait l’accent sur la créativité du langage, c’est-à-dire sur la capacité des locuteurs humains à générer un nombre illimité de phrases nouvelles.

Par exemple, voici une phrase qui n’a probablement jamais été prononcée auparavant : « La pastèque est le Beethoven de la gastronomie ». Elle n’a pas été générée au hasard, mais en accord avec des contraintes syntaxiques, sémantiques et pragmatiques intériorisées dans mon cerveau. De plus, elle peut être utilisée de manière récursive pour générer des phrases plus complexes telles que « Je pense que vous ne croyez pas que les pastèques sont le Beethoven de la gastronomie ». Une représentation est récursive si elle renvoie à d’autres représentations, et elle est créative si elle est nouvelle, valable et surprenante.

La génération contrainte de représentations récursives se produit dans de nombreux contextes humains.

L’intelligence sociale : Nous comprenons les autres esprits en faisant preuve d’empathie à leur égard (une sorte d’analogie) et en formulant des hypothèses sur leurs états mentaux non observables, tels que les croyances et les émotions.
La science : Les scientifiques ne se contentent pas de décrire ce qui se passe dans le monde, ils génèrent également des représentations de causes non observables, telles que les forces et les atomes, qui expliquent les observations.
Les mathématiques : Pour donner un sens aux énigmes empiriques et conceptuelles, les mathématiciens génèrent des concepts abstraits tels que les ensembles transfinis et la géométrie non euclidienne.
La musique : Des compositeurs comme Mozart et McCartney créent des modèles de rythmes et de tonalités sans précédent qui satisfont aux contraintes culturelles tout en les transcendant de manière surprenante.
L’art : Des peintres comme Picasso produisent des styles nouveaux tels que le cubisme.

Aucune de ces avancées n’aurait pu être produite simplement par l’apprentissage profond à partir d’exemples, l’apprentissage par renforcement ou la génération aléatoire de structures mentales. L’espace des représentations possibles est bien trop vaste pour être exploré par des combinaisons aléatoires, mais dépend de mécanismes qui génèrent des concepts, des règles, des images, des analogies et des émotions qui sont contraints mais non déterminés par le contexte actuel. Pour affirmer que la récompense est suffisante, les chercheurs de DeepMind doivent montrer que leurs algorithmes sont capables de générer des représentations pour les analogies, les connexions causales et les causes cachées.

La capacité de représentation récursive semble n’avoir évolué dans le cerveau humain qu’au cours des 100 000 dernières années et ne fonctionne pas chez les autres animaux (Corballis 2011, Thagard, 2021). La capacité créative de combiner des représentations pour en créer de nouvelles et riches a permis le développement d’un langage complexe, de l’art, de la religion, des mathématiques, de la technologie et de la science, amenant notre espèce bien au-delà du monde animal de l’apprentissage par renforcement. La récompense est le moteur d’une grande partie du comportement humain, mais la créativité l’est tout autant.

Références

Chomsky, N. (1959). A review of B. F. Skinner’s Verbal Behavior. Language, 26-58.

Chomsky, N. (1972). Language and mind (2 ed.). New York : Harcourt Brace Jovanovich.

Corballis, M. C. (2011). L’esprit récursif : Les origines du langage, de la pensée et de la civilisation humaine. Princeton : Princeton University Press.

Silver, D., Singh, S., Precup, D. et Sutton, R. S. (2021). Reward Is enough. Artificial Intelligence, 299, 103535.

Thagard, P. (2021). Bots et bêtes : Qu’est-ce qui rend les machines, les animaux et les gens intelligents ? Cambridge, MA : MIT Press. Octobre