L'IA décode l'activité cérébrale en paroles avec une grande précision -

🔥 Produits recommandés : Canon EOS R6 II • DJI Mini 4 Pro • MacBook Pro M4

Geralt/Pixabay

Une nouvelle étude publiée ce mois-ci dans le Journal of Neural Engineering montre comment une interface cerveau-ordinateur (BCI) utilise l’apprentissage en profondeur de l’intelligence artificielle (IA) pour traduire l’activité cérébrale en parole avec une précision pouvant aller jusqu’à 100 %.

« La présente étude démontre qu’il est possible d’obtenir une grande précision et un décodage robuste sur des ensembles de données relativement petits (10 répétitions de 12 mots) si l’on utilise des reconstructions vocales pour la classification », a écrit l’auteur principal, Julia Berezutskaya, chercheuse postdoctorale à l’Institut Donders de l’Université Radboud pour la cognition du cerveau et le comportement et au Centre médical universitaire (UMC) du Centre cérébral d’Utrecht, avec Zachary V Freudenburg, Mariska J Vansteensel, Erik Aarnouts, Nick Ramsey, et Marcel van Gerven. « Ces résultats soulignent le potentiel de cette approche pour une utilisation ultérieure dans les ICB.

Les interfaces cerveau-ordinateur, également appelées interfaces cerveau-machine (ICM), offrent un espoir aux personnes qui ont perdu la capacité de parler ou de bouger en décodant les intentions du patient à partir de l’activité cérébrale afin de faire fonctionner et de contrôler des membres robotisés, des applications logicielles telles que le courrier électronique et d’autres dispositifs externes.

« Jusqu’à présent, aucune étude complète sur l’optimisation des modèles d’apprentissage profond pour la reconstruction de la parole n’a été réalisée », écrivent les chercheurs. « En outre, il n’y a pas de consensus sur les choix des caractéristiques cérébrales et audio de la parole qui sont utilisées dans de tels modèles. »

En utilisant la reconstruction de la parole à partir d’enregistrements d’électrocorticographie à haute densité de l’activité cérébrale produite dans la zone du cortex sensorimoteur pendant la production de la parole, l’équipe a validé et amélioré une méthode de décodage neuronal pour cette étude.

« Comprendre quelles sont les stratégies de décodage qui donnent les meilleurs résultats et qui sont directement applicables est crucial pour faire avancer le domaine », écrivent les scientifiques.

La reconstruction de la parole utilise les données de l’activité cérébrale pour produire des représentations graphiques d’un spectre appelé spectrogramme de la parole. Les données relatives à l’activité cérébrale de l’aire sensorimotrice ont été recueillies auprès des participants à l’étude à l’aide d’enregistrements d’électrocorticographie à haute densité (HD ECoG) de cinq personnes prononçant 12 mots à haute voix dix fois chacune. Les participants avaient des grilles ECoG HD implantées qui utilisaient le système d’enregistrement neuronal NeuroPort de Blackrock Microsystems.

Les chercheurs ont évalué trois modèles différents de reconstruction de la parole par apprentissage profond : un réseau neuronal récurrent (RNN) séquence-séquence (S2S), un perceptron multicouche (MLP) et un réseau neuronal convolutif (CNN) DenseNet (DN).

Selon les scientifiques, le décodage des mots individuels dans la parole reconstruite par les classificateurs d’apprentissage automatique de l’IA a atteint une précision de 92 % à 100 % pour l’ensemble des modèles. En outre, ils ont découvert que pour obtenir des reconstructions vocales IA plus précises, des modèles de réseaux neuronaux profonds IA très complexes sont nécessaires.

Le perceptron multicouche (MLP), dont l’architecture informatique est relativement simple et consiste en des opérations linéaires de base suivies d’une fonction d’activation non linéaire, a été surpassé par des modèles d’IA aux opérations de calcul plus complexes. Le modèle récurrent séquence-séquence, avec son mécanisme d’attention et sa mémoire d’état, et le modèle convolutif DenseNet, avec ses sauts de connexion et ses convolutions locales, sont tous deux des modèles d’IA qui utilisent des calculs plus complexes que le modèle d’IA du perceptron multicouche.

Les résultats de l’étude suggèrent que la combinaison de l’intelligence artificielle et d’une interface cerveau-ordinateur pour la reconstruction directe de la parole à partir de l’activité cérébrale dans l’aire sensorimotrice permet un décodage très précis des mots.

« Ces résultats ont le potentiel de faire progresser l’état de l’art en matière de décodage et de reconstruction de la parole en vue d’une utilisation ultérieure dans les ICB pour la communication chez les personnes souffrant de graves déficiences motrices », a conclu l’équipe de chercheurs.