« Les déchets des uns sont les trésors des autres » est une expression familière. En matière de santé et de génomique, l’ADN « poubelle » pourrait s’avérer être une mine d’or. Dans une étude récente, des chercheurs dirigés par l’université de Princeton ont utilisé le séquençage du génome entier et l’apprentissage profond de l’intelligence artificielle pour identifier la contribution des mutations non codantes au risque d’autisme, démontrant ainsi que les mutations de l’ADN « poubelle » peuvent contribuer à une maladie complexe.
L’étude a été menée par Olga Troyanskaya, professeur à Princeton et directrice adjointe de la génomique au Center for Computational Biology (CCB) de l’Institut Flatiron à New York, ainsi que par Robert Darnell, professeur à l’Université Rockefeller et chercheur à l’Institut médical Howard Hughes.
Publiée le 27 mai dans Nature Genetics, l’étude présente un cadre d’apprentissage profond de l’IA qui « prédit les effets régulateurs spécifiques et l’impact délétère des variantes génétiques », et l’utilise pour les troubles du spectre autistique (TSA).
L’Organisation mondiale de la santé estime qu’un enfant sur 160 est atteint de TSA dans le monde. Aux États-Unis, l’autisme touche un enfant américain sur 68, selon les statistiques des Centers for Disease Control and Prevention (CDC).
Les symptômes des TSA sont présents dès la petite enfance et peuvent généralement être diagnostiqués vers l’âge de deux ans sur la base du comportement et des retards dans les étapes du développement. Les TSA ont un impact négatif sur la capacité d’une personne à fonctionner à l’école, au travail, dans sa vie sociale et dans d’autres aspects de la vie quotidienne. Les TSA touchent des personnes de toutes les races, de toutes les ethnies et de tous les groupes socio-économiques.
Selon le Manuel diagnostique et statistique des troubles mentaux (DSM-5) de l’American Psychiatric Association, les personnes atteintes de troubles du spectre autistique (TSA) présentent des déficits persistants dans la communication et les interactions sociales, ainsi que des schémas restreints et répétitifs de comportement, d’intérêts ou d’activités.
Les études existantes suggèrent qu’il est probable qu’il existe de nombreuses causes pour de multiples types de TSA. Toutes les causes de l’autisme ne sont pas encore établies. Des études scientifiques ont montré que les vaccins ne causent pas l’autisme. Il peut y avoir de nombreux facteurs de risque pour les TSA, tels que des facteurs biologiques, environnementaux et génomiques. Pour cette étude, les chercheurs se sont concentrés sur le domaine génomique, en étudiant l’impact de l’ADN non codant sur les TSA.
L’ADN, ou acide désoxyribonucléique, est le matériel héréditaire présent dans le noyau cellulaire (ou en petites quantités dans les mitochondries) de presque tous les organismes vivants. Les molécules d’ADN sont constituées de deux brins torsadés et appariés, chaque brin étant composé des bases nucléotidiques adénine (A), thymine (T), guanine (G) et cytosine (C). On estime à 3 milliards le nombre de paires de bases dans le génome humain. Seule une infime partie, estimée à un ou deux pour cent de l’ADN, est constituée de gènes codant pour des protéines. Les 98 à 99 % restants sont des gènes non codants, de l’ADN régulateur, également connu sous le nom d’ADN « poubelle ».
« Un rôle potentiel des mutations non codantes dans les maladies humaines complexes, y compris les TSA, a longtemps été spéculé », écrivent les chercheurs. L’équipe a appliqué la méthode scientifique pour tester cette hypothèse.
L’approche de l’étude était simple : examiner l’ensemble du génome et identifier les parties de l’ADN qui régulent les gènes, puis construire un modèle pour prédire comment les mutations de l’ADN « poubelle » pourraient jouer un rôle dans des maladies complexes. Cependant, l’exécution de cette approche s’est avérée assez complexe.
Cette étude a utilisé 7 097 génomes provenant de 1 790 familles dont les génomes entiers ont été séquencés à partir de la Simons Simplex Collection (SSC) – un dépôt d’échantillons génétiques provenant de 2 600 familles dont un seul enfant est atteint de TSA. Le séquençage du génome entier est une procédure de laboratoire qui permet d’identifier la quasi-totalité des trois milliards de nucléotides de la séquence complète de l’ADN d’un individu, qu’il s’agisse de l’ADN codant ou de l’ADN « poubelle » non codant.
L’équipe a entraîné un réseau neuronal convolutionnel profond avec des données biochimiques qui distinguent l’interaction entre les protéines de liaison de l’ADN et de l’ARN, ainsi que leurs cibles, afin de prédire l’impact (fonctionnel et pathogène) des mutations dans la base de données.
Les réseaux neuronaux convolutifs (CNN) sont bien adaptés au traitement de données pixellisées bidimensionnelles et sont souvent utilisés pour l’analyse d’images. Inspirée des opérations du cerveau humain et des neurosciences, l’architecture des réseaux neuronaux convolutifs est quelque peu analogue au cortex visuel biologique, où les neurones corticaux individuels répondent aux stimuli dans le champ visuel ou réceptif. Les réseaux de neurones convolutifs sont utilisés dans le traitement du langage naturel (NLP), les systèmes de recommandation, la reconnaissance et la classification d’images et d’autres applications similaires.
« Notre analyse a permis d’identifier de nouvelles mutations candidates non codantes associées à la maladie qui pourraient affecter les TSA par le biais de la régulation de l’expression des gènes », écrivent les chercheurs. « Notre approche relève le défi statistique de la détection de la contribution des mutations non codantes en prédisant leurs effets spécifiques sur la régulation transcriptionnelle et post-transcriptionnelle. Cette approche est générale et peut être appliquée à l’étude des contributions des mutations non codantes à toute maladie ou phénotype complexe. »
« Cette approche pourrait être particulièrement utile pour les troubles neurologiques, le cancer, les maladies cardiaques et de nombreuses autres affections qui ont échappé aux efforts d’identification des causes génétiques », a déclaré Mme Troyanskaya dans un article de presse de l’université de Princeton.
En conclusion, les chercheurs ont écrit : « Notre cadre génomique prédictif éclaire le rôle des mutations non codantes dans les TSA et donne la priorité aux mutations à fort impact pour des études plus approfondies ; il est largement applicable aux maladies humaines complexes.
Les innovations dans le domaine de la génomique et de l’intelligence artificielle permettent de faire de nouvelles découvertes en matière de santé et de médecine, et notamment de mieux comprendre le rôle des mutations dans l’ADN « poubelle ».
Copyright © 2019 Cami Rosso Tous droits réservés.
Références
Zhou, Jian, Park, Christopher Y., Theesfeld, Chandra L., Wong, Aaron K., Yuan, Yuan, Scheckel, Claudia, Fak, John J., Funk, Julien, Yao, Kevin, Tajima, Yoko, Packer, Alan, Darnell, Robert B., Troyanskaya, Olga G. « Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk ». Nature Genetics. 27 mai 2019.
Autism Speaks. » DSM-5 Criteria » (Critères du DSM-5). Consulté le 6-19-2019 sur https://www.autismspeaks.org/dsm-5-criteria
CDC. « Sécurité des vaccins ». Consulté le 6-19-2019 sur https://www.cdc.gov/vaccinesafety/concerns/autism.html