Une introduction à l’apprentissage automatique de l’IA

🔥 Produits recommandés : Canon EOS R6 IIDJI Mini 4 ProMacBook Pro M4

coffee/pixabay
Source : coffee/pixabay

Il y a de fortes chances que vous utilisiez déjà quotidiennement des services alimentés par l’intelligence artificielle (IA). Mais qu’est-ce qui alimente exactement l’apprentissage automatique ? Jetons un coup d’œil au moteur qui se trouve sous le capot de l’apprentissage automatique de l’IA.

L’apprentissage automatique est un sous-ensemble de l’intelligence artificielle qui ne nécessite pas de codage explicite (programmation) pour effectuer des tâches. Pour ce faire, on fournit aux algorithmes d’apprentissage automatique de grandes quantités de données à partir desquelles ils peuvent « apprendre » et qu’ils peuvent traiter. L’apprentissage automatique est réalisé de manière supervisée, non supervisée, semi-supervisée ou par des méthodes de renforcement.

L’apprentissage automatique supervisé utilise des données de formation étiquetées – pour chaque entrée, il existe une valeur de sortie connue et associée. L’objectif de l’apprentissage supervisé est d’apprendre une fonction qui estime au mieux la relation entre les données d’entrée et de sortie. En revanche, dans l’apprentissage non supervisé, il n’y a pas de données de sortie étiquetées associées aux données d’entrée, de sorte que l’objectif de la machine est de déduire à partir des données d’entrée fournies, afin d’identifier les similitudes et les différences entre les points de données. L’apprentissage automatique semi-supervisé utilise des données de formation étiquetées.

L’apprentissage par renforcement (RL) est une méthode dans laquelle l’apprentissage est réalisé par des agents logiciels qui interagissent avec leur environnement dans le but de maximiser la récompense. Les processus décisionnels de Markov (PDM) sont généralement utilisés pour l’apprentissage par renforcement. Les PDM modélisent mathématiquement la prise de décision dans des environnements incertains.

Au cœur de l’intelligence artificielle se trouvent les mathématiques et les statistiques utilisées dans les algorithmes informatiques, c’est-à-dire les procédures de résolution d’un problème. Les algorithmes qui effectuent des régressions, des classifications ou des regroupements sont des exemples de tâches courantes d’apprentissage automatique.

Le concept de régression a été introduit par le polymathe Sir Francis Galton (cousin de Charles Darwin) dans ses articles de recherche en génétique intitulés « Regression towards mediocrity in hereditary stature » et « Natural Inheritance », publiés respectivement en 1886 et 1889. La « régression vers la moyenne » est le phénomène par lequel les données aberrantes qui se situent en dehors de la norme se rapprochent de la moyenne lors de la mesure suivante. En termes scientifiques, la régression vers la moyenne se produit généralement en raison d’erreurs dans l’échantillonnage des données. Cela peut se produire lorsque la taille de l’échantillon est trop petite ou si les échantillons ne sont pas sélectionnés au hasard.

l’article continue après l’annonce

On peut penser à cela dans le contexte de l’adage familier selon lequel il faut « quitter la table » lorsque l’on est en tête au casino, parce que le fait de gagner est une aberration aléatoire et qu’au fil du temps, le résultat va régresser vers la moyenne des perdants. Les séries de gains sont des résultats peu courants et il y a de fortes chances qu’avec le temps, vous finissiez par perdre si vous continuez à jouer.

La régression linéaire est la forme la plus simple de régression utilisée pour l’analyse prédictive dans les algorithmes d’apprentissage automatique. L’objectif est de minimiser l’erreur entre la valeur réelle de l’algorithme et la valeur prédite. Une fonction de coût, également connue sous le nom de fonction d’erreur quadratique moyenne (EQM), mesure les erreurs de prédiction.

La descente de gradient est un algorithme d’optimisation pour l’apprentissage automatique utilisé pour identifier les valeurs des coefficients (paramètres) d’une fonction qui minimiseront une fonction de coût.

La régression linéaire est relativement simple et directe. Cependant, dans un ensemble de données donné, la relation entre deux variables n’est souvent pas directement proportionnelle et ne peut donc pas être dérivée par régression linéaire. Dans l’apprentissage automatique, on utilise généralement des techniques de régression non linéaires. Parmi les exemples d’algorithmes de régression non linéaire, on peut citer la descente de gradient, la méthode de Gauss-Newton et la méthode de Levenberg-Marquardt.

La classification est une autre tâche courante de l’apprentissage automatique. La classification est un apprentissage automatique supervisé dans lequel l’ordinateur apprend à partir de données de formation étiquetées et applique l’apprentissage dans le but de prédire avec précision la classe des données. Par exemple, dans la comédie de HBO « Silicon Valley », l’un des personnages entreprenants, M. Jian-Yang, a créé une application d’IA appelée « Not Hotdog » pour classer les images comme étant des hot-dogs ou non. Dans la réalité, Tim Anglade, le principal conseiller technique de la série, a créé une application « Not Hotdog ». Comme pour tout apprentissage automatique, la quantité et la qualité de la formation sont importantes. Dans ce cas, Tim Anglade a écrit dans son billet de blog sur Medium qu’en raison de biais dans l’ensemble de données initial utilisé, l’application était « incapable de reconnaître les hot-dogs à la française, les hot-dogs asiatiques et d’autres bizarreries avec lesquelles nous n’avions pas d’expérience personnelle immédiate », et que l’IA est affectée « par les mêmes biais humains que ceux dont nous sommes victimes, via les ensembles d’entraînement que les humains fournissent ».

l’article continue après l’annonce

Le troisième grand type de tâche d’apprentissage automatique est le regroupement, c’est-à-dire l’organisation de données non étiquetées en groupes similaires par le biais d’un apprentissage automatique non supervisé. Pour illustrer le concept de regroupement, prenons un exemple d’analyse statistique de regroupement basée sur l’homme : le travail effectué par John Snow, médecin, l’un des premiers épidémiologistes. Le Dr Snow a cartographié les cas de choléra et a remarqué que les grappes de cas se trouvaient à proximité d’une pompe à eau. Il s’est avéré que l’eau de cette pompe était polluée par la couche souillée d’un bébé atteint de choléra. Le Dr Snow a émis l’hypothèse que le choléra était une maladie transmise par l’eau lors d’une importante épidémie survenue en 1854 dans le quartier londonien de SoHo. Sur la base de son analyse détaillée, il a conclu que le choléra n’était pas causé par le « miasme » (« mauvais air »), comme c’était l’idée dominante à l’époque.

Artificial Intelligence Essential Reads

L’augmentation récente des investissements dans l’intelligence artificielle (IA) dans de nombreux secteurs industriels est en grande partie due aux capacités de reconnaissance des formes de l’apprentissage profond, une méthode d’apprentissage automatique composée de plus de deux couches de réseaux neuronaux. L’apprentissage profond est constitué de réseaux neuronaux composés de deux couches ou plus qui utilisent un traitement non linéaire. L’apprentissage en profondeur est à la pointe de la technologie pour la reconnaissance des formes, utilisée pour la reconnaissance des images et de la parole. Cette technique est optimale lorsque de grands ensembles de données sont disponibles pour la formation.

L’IA s’est immiscée dans les applications de médias sociaux, la recherche sur internet, les suggestions d’achat en ligne, les robots de service à la clientèle, la médecine personnalisée, le commerce financier, la gestion de la production industrielle, la découverte de médicaments, la prévention de la fraude, l’analyse de la veille stratégique, le recrutement de ressources humaines, les assistants virtuels, les véhicules autonomes, les moteurs de traduction, la reconnaissance faciale, la conversion d’images en couleurs, et même les sports électroniques. Les domaines interdisciplinaires des mathématiques, des statistiques, de la science des données et de l’informatique convergent vers l’apprentissage automatique qui, à son tour, change rapidement notre façon de vivre, de travailler et de jouer.

Copyright © 2019 Cami Rosso Tous droits réservés.

Références

Galton, Francis. « Régression vers la médiocrité dans la stature héréditaire ». Macmillan. 1886. Consulté le 2-4-2019 sur http://galton.org/books/natural-inheritance/pdf/galton-nat-inh-1up-clea….

Galton, Francis. « L’hérédité naturelle ». Macmillan. 1889. Consulté le 2-4-2019 sur http://galton.org/books/natural-inheritance/pdf/galton-nat-inh-1up-clea….

GeegksforGeeks. « Clustering in Machine Learning ». Consulté le 2/4/2019 sur https://www.geeksforgeeks.org/

Anglade, Tim. « Comment Silicon Valley de HBO a construit « Not Hotdog » avec TensorFlow mobile, Keras & React Native ». Medium. 26 juin 2017.

Rogers, Simon. « Le journalisme de données de John Snow : la carte du choléra qui a changé le monde ». The Guardian. 15 mars 2013.