Une avancée majeure ! L’IA comble-t-elle une lacune importante dans la conception des protéines ou résout-elle le mystère du cancer et de la démence ?

Une avancée majeure ! L’IA comble-t-elle une lacune importante dans la conception des protéines ou résout-elle le mystère du cancer et de la démence ?

Préface

Les maladies neurologiques telles que les accidents vasculaires cérébraux et la démence sont l’une des principales causes de maladie et d’invalidité. Selon l’Organisation mondiale de la santé (OMS), plus d’un tiers de la population mondiale souffre de telles maladies. Parmi elles, les maladies neurodégénératives sont un type de maladie chronique et courante qui constitue une menace sérieuse pour la santé humaine et la qualité de vie.

Une compréhension plus approfondie de la structure et de la fonction des protéines fournira des informations importantes pour lutter contre ces maladies. L’exploration du repliement des protéines a commencé dès les années 1950. L’émergence d’AlphaFold a complètement changé le paradigme dans lequel les scientifiques étudient le repliement des protéines.

Aujourd’hui, l’IA pour les sciences des protéines a réalisé de nouvelles avancées.

Récemment, une équipe de recherche de l'Université de Copenhague, du St. Jude Children's Research Hospital et de l'Illinois Institute of Technology a introduit un algorithme général pour la conception de variantes de protéines avec des propriétés structurelles spécifiques, élargissant l'étude des protéines au domaine des protéines intrinsèquement désordonnées (IDP).

Les IDP sont des protéines qui ne parviennent pas à se replier dans une structure tridimensionnelle stable ou ordonnée et sont considérées comme ayant une importance biologique importante à la fois dans les systèmes sains et dans la physiopathologie de diverses maladies. Contrairement aux protéines repliées, les IDP sont caractérisées par un désordre élevé, une mobilité locale et une dynamique élevée, ce qui les rend particulièrement difficiles pour les outils de prédiction existants.

Cette étude a non seulement proposé une nouvelle méthode de conception en théorie, mais a également vérifié les variantes d'IDP conçues par le biais d'expériences et a utilisé des modèles d'apprentissage automatique pour prédire les propriétés collectives des IDP, fournissant de nouveaux outils pour la conception informatique de protéines. Cela pourrait nous aider à comprendre la pathogenèse de diverses maladies neurodégénératives (telles que la maladie d’Alzheimer, la maladie de Parkinson, la sclérose latérale amyotrophique) et de divers types de cancer, ainsi qu’à favoriser la découverte de nouveaux médicaments et le développement de biomatériaux.

L'article de recherche connexe intitulé « Conception de variantes de protéines intrinsèquement désordonnées avec diverses propriétés structurelles » a été publié dans la revue faisant autorité Science Advances.

Pourquoi devrions-nous nous soucier des personnes déplacées à l’intérieur de leur propre pays ?

Un morceau d'origami n'est rien de plus que de la pulpe de bois pressée jusqu'à ce qu'il soit plié d'une manière spécifique ; une fois plié, il devient quelque chose de nouveau. Après quelques pliages et retournements précis, il devient un produit en papier capable de prédire votre avenir - un bâton porte-bonheur. Le même morceau de papier, en changeant quelques étapes de pliage, peut devenir une grue déployant ses ailes prête à s'envoler, symbolisant l'arrivée de la bonne chance.

De même, une longue chaîne de molécules d’acides aminés n’a aucune fonction jusqu’à ce qu’elle se replie spontanément dans sa forme spécifique. Les cellules fabriquent des protéines en enchaînant de petites molécules d’acides aminés en longues chaînes polypeptidiques. L’acide aminé choisi dépend de l’ensemble des instructions fournies par l’ADN. Quelques instants après leur création, les chaînes polypeptidiques se plient et se replient avec précision pour donner la forme 3D finale de la protéine.

Si les protéines ne peuvent pas mener à bien ce processus de repliement de manière extrêmement efficace, une série de catastrophes se produira dans le corps humain. Les protéines mal repliées ou dépliées peuvent devenir toxiques et provoquer la mort cellulaire. De nombreuses maladies et troubles, comme la drépanocytose, sont causés par des protéines mal repliées. Les protéines mal repliées peuvent également s'agréger en amas, une caractéristique des maladies neurodégénératives telles que la maladie d'Alzheimer et la maladie de Parkinson.

Par conséquent, prédire la forme 3D des molécules de protéines est très important pour notre compréhension ou notre traitement des maladies neurodégénératives.

Cependant, le domaine de la biologie structurale s'est historiquement concentré sur l'étude des protéines et des acides nucléiques qui se replient en structures 3D stables, et une grande partie de la compréhension actuelle du fonctionnement des protéines dans les cellules est basée sur le concept de relations « séquence-structure-fonction ».

Environ 30 % des protéines des eucaryotes ne se replient pas en structures 3D stables. Ces protéines à déformation dynamique sont appelées IDP, ou lorsqu'elles sont situées dans le contexte d'autres domaines protéiques structurés, elles sont appelées « régions intrinsèquement désordonnées » (IDR). Les IDP et les IDR jouent divers rôles importants dans les fonctions moléculaires et cellulaires, remettant en question le paradigme séquence-structure-fonction.

La fonction cellulaire dérégulée des IDP a été impliquée dans plusieurs maladies neurodégénératives (maladie d'Alzheimer, maladie de Parkinson, sclérose latérale amyotrophique) et de nombreux cancers, et leur capacité à s'auto-associer pour former des condensats biomoléculaires et générer une variété d'organites sans membrane dans l'environnement cellulaire est de plus en plus reconnue comme étant d'une grande importance en biologie cellulaire et en maladie.

Pour mieux comprendre la biologie et les maladies humaines, Paul Robustelli, professeur adjoint au Dartmouth College, a souligné dans un article connexe : « La biologie structurale doit aller au-delà de l'étude des protéines ayant des structures 3D stables et développer des règles qui expliquent comment la séquence des IDR détermine la distribution des formes qu'elles adoptent en solution et comment cette distribution détermine leur fonction dans les cellules et leur dysfonctionnement dans la maladie. »

Extension de la conception computationnelle des protéines aux IDP

Les IDP présentent une hétérogénéité structurelle extrême mais généralement non aléatoire et ne peuvent pas former de structures pliées stables, de sorte que la prédiction de la structure des IDP est plus difficile que celle des protéines pliées, et leur conception informatique reste limitée.

Francesco Pesce et ses collègues ont relevé ce défi. En s'appuyant sur un modèle informatique précédemment publié appelé CALVADOS, ils ont conçu un algorithme général pour générer des IDP avec des propriétés globales prédéfinies et l'ont utilisé pour produire quatre IDP avec des caractéristiques différentes. Ils se sont également concentrés sur un type d'IDP appelé A1-LCD et ont validé expérimentalement la dérivation des relations séquence-ensemble du modèle pour plusieurs variantes d'A1-LCD.

Ils ont conçu un algorithme général pour les variantes de protéines avec des propriétés structurelles spécifiques. L'algorithme utilise une simulation à gros grains et un calcul d'énergie libre, combinés à des méthodes d'échantillonnage de Monte Carlo, pour rechercher dans l'espace de séquence et générer des séquences de protéines avec des caractéristiques structurelles cibles. Les chercheurs ont utilisé l’algorithme pour concevoir une variété de variantes de protéines et les ont vérifiées expérimentalement. Les résultats ont montré que l’algorithme peut concevoir efficacement des variantes de protéines avec une compacité différente, des interactions à longue portée et des tendances de séparation de phase.

L'algorithme recherche l'espace des séquences et relie chaque séquence à ses propriétés conformationnelles à l'aide de simulations efficaces à gros grains. Des simulations de dynamique moléculaire à gros grains (MD) ont été réalisées à l'aide du modèle CALVADOS et des ensembles conformationnels d'IDP ont été générés. L'algorithme échantillonne l'espace de séquence à l'aide d'une méthode de Monte Carlo (MCMC) et prédit ses propriétés conformationnelles (via des simulations MD et des calculs d'énergie libre). Grâce au processus d’optimisation, des arrangements spécifiques d’acides aminés sont recherchés pour identifier les caractéristiques structurelles cibles.

Figure | Aperçu de l’algorithme de l’équipe de recherche pour la conception de séquences IDP avec des propriétés conformationnelles cibles.

L'algorithme peut concevoir des séquences IDP avec des propriétés structurelles spécifiques, telles que la compacité, les contacts à longue portée et la propension à la séparation de phase. De plus, il peut explorer l'espace de séquence et trouver des séquences IDP avec de nouvelles caractéristiques conformationnelles. L’équipe de recherche a également utilisé des modèles d’apprentissage automatique pour accélérer l’algorithme et le rendre plus efficace.

À l’avenir, l’équipe de recherche recommande d’échantillonner une gamme plus large d’espaces de séquences et d’explorer la combinaison de l’échantillonnage MCMC avec d’autres méthodes (telles que l’apprentissage par renforcement et l’optimisation bayésienne) pour explorer l’espace de séquences plus efficacement. De plus, les auteurs notent que la combinaison de l’apprentissage automatique et de la simulation sera particulièrement importante lors de la conception de séquences avec des observables structurels plus complexes, où les simulations peuvent être plus coûteuses et les calculs chimiques peuvent être moins efficaces. De plus, l'algorithme peut être appliqué à la conception de séquences avec d'autres caractéristiques structurelles et démontre la possibilité de concevoir des séquences avec des cartes de contact ciblées.

L'IA pour les protéines continue de s'améliorer

Les scientifiques étudient les protéines depuis les années 1960, en s’appuyant principalement sur des techniques traditionnelles telles que les rayons X et la résonance magnétique nucléaire (RMN) pour déterminer leur structure. Avec l’approfondissement de la compréhension des mécanismes biochimiques des protéines et les progrès rapides de la technologie informatique, les chercheurs ont commencé à se tourner vers des méthodes informatiques pour prédire les structures des protéines.

En 2016, l'équipe de Xu Jinbo a été la pionnière de l'application des réseaux résiduels profonds (ResNet) dans la prédiction de structure, améliorant considérablement la précision des prédictions de contact des résidus protéiques. Sur la base de cette réalisation, une série d'études combinant des algorithmes de co-évolution et d'apprentissage profond ont émergé, telles que AlphaFold (axé sur la prédiction de la distance résiduelle) et trRosetta développé par l'équipe de Yang Jianyi et David Baker (axé sur l'introduction d'informations sur l'angle dièdre, etc.), qui ont tous deux adopté l'architecture ResNet.

En 2020, AlphaFold2 a fait sensation lors de la compétition CASP14, atteignant une précision de prédiction de 98,5 %. En 2021, l'équipe de David Baker a publié l'outil de prédiction de protéines open source RoseTTAFold dans le magazine Science. Cet outil utilise la technologie de traitement du langage naturel (NLP) pour extraire des informations de coévolution directement à partir d'alignements de séquences multiples (MSA). Sa précision de prédiction est comparable à celle d'AlphaFold2 dans CASP14. Depuis lors, les modèles pré-entraînés basés sur des séquences de protéines, également connus sous le nom de modèles de langage protéique (PLM), ont été largement utilisés dans la prédiction de la structure des protéines.

Fin 2022, Meta a lancé ESM-2 et ESMFold, qui sont devenus l'un des modèles de langage protéique les plus importants et les plus complexes publiés à cette époque. En 2024, l'équipe de David Baker a lancé RoseTTAFold All-Atom (RFAA), une nouvelle méthode de prédiction de structure capable de décrire avec précision les coordonnées 3D de tous les atomes des unités biologiques, y compris les protéines, les acides nucléiques, les petites molécules, les métaux et les modifications chimiques.

Outre les progrès significatifs réalisés dans le domaine de la prédiction de la structure des protéines, l’intelligence artificielle (IA) continue également de progresser dans de nombreux autres domaines de la recherche sur les protéines, tels que la prédiction de l’interaction entre les protéines et d’autres molécules biologiques, la conception des protéines, la protéomique, etc. À l’avenir, l’IA continuera d’étendre son influence et de combler de nombreuses lacunes dans la recherche sur les protéines.

<<:  Devenez une recherche tendance ! Quan Hongchan : Il faut une demi-heure pour faire un bandage avant de plonger ! A quoi sert un pansement ?

>>:  De quoi s'agit-il exactement, « l'adénocarcinome pulmonaire » dont souffre le célèbre magicien ? Brochure de prévention ici →

Recommander des articles

Que se passera-t-il si vous n'éliminez pas l'acné

De nombreux adolescents, garçons et filles, souff...

Les yeux gauche et droit des lunettes ont une clarté différente

De plus en plus de personnes portent des lunettes...

L'alun est-il efficace dans le traitement du pied d'athlète ?

Face au problème du pied d'athlète, de nombre...

Que faire en cas de tumeurs gastro-intestinales

Les tumeurs gastro-intestinales sont des tumeurs ...

Comment enlever les taches d'huile sur les vêtements

Il est très gênant d’avoir des taches d’huile par...

Comment calculer la première moitié du cycle menstruel ?

Après la puberté, les femmes commencent à avoir l...

Puis-je manger du nid d'oiseau lorsque j'ai un rhume ou une toux ?

Lorsque les gens ont un rhume ou une toux, l'...

Puis-je décider de ma maladie ?

Ceci est le 4108e article de Da Yi Xiao Hu J'...

Quel type de cigarettes est le meilleur pour les femmes ?

Fumer est le sujet dont les gens parlent le plus....