Apporter de nouvelles possibilités aux soins contre le cancer ! Le premier modèle de pathologie numérique complet au monde est lancé

Apporter de nouvelles possibilités aux soins contre le cancer ! Le premier modèle de pathologie numérique complet au monde est lancé

Auteur contributeur : Xu Hanwen (étudiant en deuxième année de doctorat à l'Université de Washington)

Ces dernières années, le développement vigoureux de la pathologie numérique est devenu un élément important de l’accélération des avancées en médecine de précision. L’imagerie par lames entières, qui convertit des échantillons de tissus tumoraux en images numériques haute résolution, est devenue une routine dans les soins contre le cancer. Les images pathologiques contenant jusqu'à un milliard de pixels contiennent diverses informations sur le microenvironnement tumoral, offrant des opportunités sans précédent pour le diagnostic de classification du cancer, l'analyse du taux de survie et l'immunothérapie de précision.

Récemment, la révolution de l’intelligence artificielle générative a fourni des solutions puissantes pour percevoir et analyser avec précision l’énorme quantité d’informations contenues dans les images pathologiques. Dans le même temps, les avancées technologiques en matière d’intelligence artificielle générative multimodale aideront à comprendre les images de pathologie numérique à partir de multiples échelles de temps et d’espace et à les intégrer à d’autres modalités biomédicales, afin de mieux décrire l’évolution et le développement des maladies des patients et d’aider les médecins dans le diagnostic et le traitement cliniques.

Cependant, en raison de la grande échelle, du nombre élevé de pixels et des caractéristiques complexes des images de pathologie numérique, il est très difficile de traiter et de comprendre efficacement les modèles complexes qu'elles contiennent d'un point de vue informatique . Après la transformation numérique, chaque tranche complète contiendra des milliards de pixels, avec une surface des centaines de milliers de fois supérieure à celle d’une image naturelle, ce qui rend difficile l’application des modèles de vision par ordinateur existants. La complexité de calcul des modèles de vision traditionnels, tels que Vision Transformer, augmente rapidement à mesure que la taille de l'image d'entrée augmente. Dans le même temps, les données médicales cliniques présentent des caractéristiques d’échelle croisée, multimodales et à fort bruit, et la plupart des modèles de pathologie existants sont basés sur des ensembles de données publiques standard, qui sont encore assez éloignés des applications du monde réel.

À cette fin, des chercheurs de Microsoft Research, de Providence Medical Network et de l’Université de Washington ont proposé conjointement le premier modèle de pathologie numérique à grande échelle, GigaPath .

Il est rapporté que le modèle GigaPath adopte une structure en cascade à deux étapes et l'architecture LongNet récemment développée par Microsoft Research, qui résout efficacement le problème du traitement et de la compréhension des images de milliards de pixels . Les chercheurs ont pré-entraîné GigaPath à grande échelle sur des données réelles, en collectant 170 000 images de pathologie numérique en pleine diapositive provenant de 30 000 patients dans 28 hôpitaux de Providence aux États-Unis, totalisant 1,3 milliard de tuiles de pathologie.

Les résultats expérimentaux montrent que GigaPath obtient des résultats de premier plan dans 25 des 26 tâches, dont 9 classifications du cancer et 17 tâches de pathologie, et est significativement supérieur aux méthodes existantes dans 18 tâches.

Les chercheurs ont déclaré que cette étude démontrait l’importance de la modélisation à grande échelle et de la préformation avec des données réelles à grande échelle. Dans le même temps, GigaPath offrira également de nouvelles possibilités pour des soins plus avancés contre le cancer et des découvertes cliniques. Il convient de mentionner que le modèle et le code de GigaPath ont été open source.

méthode

GigaPath adopte un programme d'apprentissage en deux étapes, comprenant une pré-formation au niveau des tuiles à l'aide de DINOv2 et une pré-formation au niveau des tranches complètes à l'aide d'un autoencodeur de masque avec LongNet, comme illustré dans la figure ci-dessous.

Figure |Diagramme du modèle GigaPath

DINOv2 est une méthode auto-supervisée standard qui combine la perte de contraste et la perte de reconstruction du masque lors de la formation du Vision Transformer de l'enseignant et de l'élève. Cependant, en raison des défis informatiques posés par l’auto-attention elle-même, son application est limitée aux petites images, telles que les tuiles 256 × 256. Pour la modélisation au niveau de la tranche complète, l'équipe de recherche a appliqué Dilated Attention de LongNet à la pathologie numérique, comme le montre la figure ci-dessous.

Figure|Diagramme du modèle LongNet

Pour gérer de longues séquences de tuiles d'images sur des tranches complètes, ils ont introduit une série de tailles croissantes qui subdivisent la séquence de tuiles en segments d'une taille donnée. Pour les segments plus grands, LongNet introduit une attention clairsemée, où la parcimonie est proportionnelle à la longueur du segment, contrecarrant ainsi la croissance quadratique. Le fragment de plus grande taille couvrira toute la tranche complète. Cela permet de capturer les dépendances à longue portée de manière systématique tout en gardant le calcul traitable (linéaire dans la longueur du contexte).

Principaux résultats expérimentaux

En termes de diagnostic de classification du cancer , l'objectif de la tâche est de classer les sous-types à grain fin en fonction des sections pathologiques. Par exemple, pour le cancer de l’ovaire, le modèle doit faire la distinction entre six sous-types : le cancer de l’ovaire à cellules claires, le cancer de l’ovaire endométrioïde, le cancer de l’ovaire séreux de haut grade, le cancer de l’ovaire séreux de bas grade, le cancer de l’ovaire mucineux et le carcinosarcome de l’ovaire. **GigaPath a obtenu des résultats de premier ordre dans les neuf tâches de classification du cancer, avec des améliorations significatives de la précision dans six des tâches de classification du cancer. **Pour six cancers (sein, rein, foie, cerveau, ovaire, système nerveux central), GigaPath a atteint un AUROC de 90 % ou plus. Il s’agit d’un bon début pour les applications en aval dans le domaine de la santé de précision, telles que le diagnostic et le pronostic du cancer.

Dans les tâches pathomiques , l'objectif de la tâche est de prédire si une tumeur présente des mutations génétiques spécifiques cliniquement pertinentes en se basant uniquement sur des images de tranches entières. Cette tâche de prédiction permet de révéler des liens riches entre la morphologie des tissus et les voies génétiques qui sont difficiles à percevoir pour les humains. Au-delà de quelques types de cancer spécifiques connus et de paires de mutations génétiques, la quantité de signal de mutation génétique présente dans les images de lames entières reste une question sans réponse. De plus, dans certaines expériences, les chercheurs ont envisagé un scénario pan-cancéreux, identifiant des signaux universels de mutations génétiques dans tous les types de cancer et des morphologies tumorales très diverses. Dans des scénarios aussi difficiles, GigaPath a une fois de plus obtenu des performances de premier plan dans 17 tâches sur 18 et a largement surpassé le finaliste dans 12 tâches sur 18 . Gigapath peut extraire des caractéristiques morphologiques génétiquement pertinentes pour le cancer et les sous-types spécifiques au niveau de la lame entière, ouvrant la porte à des orientations de recherche futures complexes dans des scénarios réels.

De plus, les chercheurs ont démontré le potentiel de GigaPath dans les tâches de langage visuel multimodal en introduisant des rapports de pathologie. Les travaux antérieurs sur la préformation du langage visuel pathologique se sont souvent concentrés sur de petites images au niveau des tuiles. En revanche, GigaPath explore la pré-formation vision-langage au niveau de la tranche complète. En continuant à pré-entraîner les paires de rapports de pathologie, la sémantique du rapport est utilisée pour aligner les représentations de l'espace latent des images de pathologie.

C'est plus difficile que la pré-formation traditionnelle en langage visuel, et sans exploiter d'informations d'alignement précises entre les patchs d'image individuels et les extraits de texte, GigaPath surpasse considérablement trois modèles de langage visuel pathologiques de pointe sur des tâches de langage visuel standard .

Résumer

Grâce à des expériences riches et complètes, les chercheurs ont démontré que les travaux de recherche connexes de GigaPath constituent une bonne pratique en matière de pré-formation au niveau des tranches complètes et de modélisation du langage visuel multimodal. Il convient de mentionner que même si GigaPath a obtenu des résultats de premier ordre dans de nombreuses tâches, il reste encore beaucoup de place à l’amélioration dans certaines tâches spécifiques. Parallèlement, bien que les chercheurs aient exploré les tâches multimodales visuo-linguistiques, il reste encore de nombreuses questions spécifiques à explorer sur la voie de la construction d’un assistant conversationnel multimodal au niveau pathologique .

GigaPath est une collaboration entre Microsoft Research, Providence Health System et la Paul G. Allen School of Computer Science de l'Université de Washington. Parmi eux, Xu Hanwen, étudiant en deuxième année de doctorat de Microsoft Research et de l'Université de Washington, et Naoto Usuyama, chercheur principal de Microsoft Research, sont les co-premiers auteurs de l'article. Le Dr Hoifung Poon, directeur général de l'équipe Health Futures de Microsoft Research, le professeur Wang Sheng de l'Université de Washington et le Dr Carlo Bifulco de Providence sont les co-auteurs correspondants de l'article.

Xu Hanwen est un étudiant en deuxième année de doctorat à l'Université de Washington. Ses recherches portent sur l’intersection de l’IA et de la médecine. Les résultats de la recherche ont été publiés dans Nature, Nature Communications, Nature Machine Intelligence et AAAI, etc. Il a été réviseur pour Nature Communications, Nature Computational Science et d'autres revues.

Wang Sheng : professeur adjoint d'informatique à l'Université de Washington. Ses recherches portent sur l’intersection de l’IA et de la médecine. Les résultats de la recherche ont été publiés dans Nature, Science, Nature Biotechnology, Nature Machine Intelligence et The Lancet Oncology, et les résultats de la transformation de la recherche ont été utilisés par plusieurs institutions médicales telles que Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine et Providence.

Pan Haifeng : directeur général de Health Futures chez Microsoft Research. Ses intérêts de recherche comprennent la recherche fondamentale sur l’IA générative et les applications de médecine de précision. Il a remporté des prix pour le meilleur article lors de plusieurs conférences de premier plan sur l'IA, et les modèles biomédicaux open source publiés sur HuggingFace ont été téléchargés des dizaines de millions de fois. Certains de ses résultats de recherche ont commencé à être transformés en applications dans les institutions médicales et les sociétés pharmaceutiques collaboratrices.

<<:  La science du plancher pelvien : découvrir les secrets silencieux du dysfonctionnement du plancher pelvien

>>:  Le plafond des « compétences médicales » les plus avancées au monde est caché dans votre corps ?

Recommander des articles

Comment traiter l’anxiété du week-end ?

De nos jours, avec la pression croissante de la s...

La raison pour laquelle le nombril sent aussi mauvais que l'anus

Les personnes atteintes de ce phénomène sont très...

Comment pratiquer la méthode de respiration Dantian

Je crois que beaucoup de gens ne savent pas comme...

Comment résoudre le problème du blanc d'œuf qui ne peut pas être fouetté

Lorsque vous préparez des gâteaux et certains des...

Quels sont les effets et les contre-indications du thé au jasmin ?

Le thé au jasmin est très célèbre parmi les thés ...

Les dix tabous que le corps craint le plus

1. Les cheveux ont le plus peur de la teinture Le...

Est-il acceptable de placer du bambou de longévité à l'intérieur ?

Le bambou de longévité est une grande plante qui ...

Quels sont les bienfaits du trempage des oignons dans du vin rouge ?

L'oignon est un légume courant et est général...

Comment mieux couper le haut du Clivia ? Pourquoi couper le haut de Clivia

Clivia est une plante vivace à feuilles persistan...

Comment utiliser le malt pour arrêter la production de lait

Le sevrage signifie que la mère n'allaite plu...