Le talon d’Achille de la vision artificielle

pixabay
Source : pixabay

Prendriez-vous place dans un véhicule autonome si vous saviez qu’il est sujet à des problèmes de vision ? Que diriez-vous de suivre un traitement anticancéreux basé sur une interprétation informatique d’images radiologiques telles qu’une radiographie, une échographie, une tomodensitométrie, une tomographie par émission de positons ou une imagerie par résonance magnétique, en sachant que la vision par ordinateur peut facilement être trompée ? La vision par ordinateur est confrontée à un problème : il suffit de modifier légèrement les données saisies pour que les algorithmes d’apprentissage automatique soient trompés.

Les progrès récents dans le domaine de la vision par ordinateur sont en grande partie dus à l’amélioration des capacités de reconnaissance des formes grâce à l’apprentissage profond, un type d’apprentissage automatique. L’apprentissage automatique est un sous-ensemble de l’intelligence artificielle dans lequel un ordinateur est capable d’apprendre des concepts à partir du traitement de données d’entrée, soit par un apprentissage supervisé où les données d’entraînement sont étiquetées, soit non supervisé comme dans l’apprentissage non supervisé, soit une combinaison sans programmation explicite. La profondeur de l’apprentissage profond fait référence au nombre de couches de traitement des neurones artificiels dans son réseau neuronal.

Une équipe de chercheurs en intelligence artificielle (IA) composée de Kevin Eykholt, Ivan Evtimov et d’autres chercheurs de l’Université de Californie Berkeley, de l’Université du Michigan, de l’Université Stony Brook et de l’Université de Washington a découvert qu’il suffisait de modifier légèrement un panneau stop à l’aide d’autocollants noirs et blancs pour que les réseaux neuronaux profonds (RNP) de pointe classent mal les images. L’équipe a publié ses résultats en avril 2018 dans arXiv.

L’un des inconvénients actuels de l’apprentissage profond est la grande quantité de données nécessaires à l’ordinateur pour la formation. En revanche, une fois qu’un enfant a appris ce qu’est un oiseau, il peut facilement identifier un animal comme étant un oiseau sans avoir à apprendre toutes les différentes espèces d’oiseaux existantes.

Les différentes régions du cerveau traitent différents types d’informations. Par exemple, le lobe pariétal est la région du cerveau où sont traitées les données sensorielles relatives au toucher, à la température et à la douleur. Le lobe occipital interprète la vision. Le lobe temporal joue un rôle dans l’audition. Étant donné que différentes régions du cerveau traitent les données sensorielles dans différentes zones, comment former une expérience unifiée ? C’est ce que l’on appelle le problème de la liaison.

l’article continue après l’annonce

Par exemple, lorsqu’un avion à réaction passe au-dessus de nous, le cerveau sait que le son de piqué lui correspond. Le cerveau reconnaît que les ailes, la queue, le fuselage et la traînée blanche (traînée de condensation) appartiennent à l’avion et non au ciel, au soleil ou aux nuages environnants. D’une manière ou d’une autre, le cerveau humain est capable d’absorber diverses données sensorielles telles que la vue, le son, le goût, l’odorat et le toucher, et de composer une expérience cohérente. Pourtant, la manière dont le cerveau y parvient reste un mystère pour les scientifiques.

Le mathématicien britannique et professeur de neurosciences Simon Stringer, de l’Oxford Foundation for Theorectical Neuroscience and Artificial Intelligence, recherche actuellement des neurones dans le cerveau qui agissent comme des « neurones de liaison » et ambitionne de doter une machine « d’une intelligence semblable à celle d’un rat d’ici 20 ans ».

Pour l’instant, la solution pour les chercheurs en IA consiste à viser une bonne performance moyenne lorsqu’il s’agit d’interpréter correctement des images visuelles.

« L’œil ne voit que ce que l’esprit est prêt à comprendre. – Robertson Davies

Copyright © 2019 Cami Rosso Tous droits réservés.

Références

National Geographic. « Brain ». Consulté le 1-16-2019 sur https://www.nationalgeographic.com/science/health-and-human-body/human-…

Eykholt, Kevin, Evtimov, Ivan, Fernandes, Earlence, Li, Bo, Rahmati, Amir, Xiao, Chaowei, Prakash, Atul, Kohno, Tadayoshi, Song, Dawn. « Robust Physical-World Attacks on Deep Learning Visual Classification » arXiv: 1707.08945v5. 10 avril 2018.

Geddes, Linda. « The ‘weird events’ that makes machines hallucinate » (Les ‘événements bizarres’ qui font halluciner les machines). BBC. 5 décembre 2018.