Skip to main content

7 Mai, 2024

L’IA médicale de Google détruit le benchmark GPT et surpasse les médecins

L’IA médicale de Google détruit le benchmark GPT et surpasse les médecins

Med-Gemini de Google est une IA spécialisée dans la médecine

Google Research et DeepMind, le laboratoire de recherche en IA de Google, ont détaillé l’impressionnante portée de Med-Gemini, une famille de modèles d’IA avancés spécialisés dans la médecine. Il s’agit d’une avancée considérable dans le domaine du diagnostic clinique, avec un potentiel énorme dans le monde réel.

Les médecins traitent quotidiennement une multitude de patients dont les besoins vont du plus simple au plus complexe. Pour prodiguer des soins efficaces, ils doivent connaître le dossier médical de chaque patient et se tenir au courant des procédures et des traitements les plus récents. Et puis il y a la relation médecin-patient, très importante, qui repose sur l’empathie, la confiance et la communication. Pour qu’une IA puisse se rapprocher d’un médecin du monde réel, elle doit être capable de faire toutes ces choses.

L’intersection de l’IA et de la médecine a vraiment pris son essor. Au cours des six derniers mois, plusieurs modèles d’IA ont été présentés afin d’ aider les médecins moins expérimentés à identifier les signes précurseurs du cancer du côlon, à diagnostiquer l’autisme infantile à partir d’images oculaires et à prédire en temps réel si un chirurgien a enlevé tous les tissus cancéreux lors d’une opération du cancer du sein. Mais Med-Gemini, c’est autre chose.

Les modèles Gemini de Google sont une nouvelle génération de modèles d’IA multimodale, ce qui signifie qu’ils peuvent traiter des informations provenant de différentes modalités, notamment des textes, des images, des vidéos et des sons. Les modèles maîtrisent le langage et la conversation, comprennent les diverses informations sur lesquelles ils sont formés et ce que l’on appelle le « raisonnement en contexte long », c’est-à-dire le raisonnement à partir de grandes quantités de données telles que des heures de vidéo ou des dizaines d’heures d’audio.

Med-Gemini présente tous les avantages des modèles fondamentaux de Gemini, mais les a affinés. Les chercheurs ont testé ces ajustements axés sur les médicaments et ont inclus leurs résultats dans l’article dont certaines parties sont impressionnantes.

Auto-apprentissage (self-training) et capacités de recherche sur le web

Pour parvenir à un diagnostic et formuler un plan de traitement, les médecins doivent combiner leurs propres connaissances médicales avec une multitude d’autres informations pertinentes : symptômes du patient, antécédents médicaux, chirurgicaux et sociaux, résultats de laboratoire et d’autres tests d’investigation, et réaction du patient à des traitements antérieurs. Les traitements sont un « festin mobile », les traitements existants étant mis à jour et de nouveaux étant introduits. Tous ces éléments influencent le raisonnement clinique d’un médecin.

C’est pourquoi, avec Med-Gemini, Google a inclus l’accès à la recherche sur le web pour permettre un raisonnement clinique plus avancé. Comme de nombreux modèles de langage étendu (LLM) axés sur la médecine, Med-Gemini a été entraîné sur MedQA, des questions à choix multiples représentatives des questions de l’US Medical License Exam (USMLE), conçues pour tester les connaissances et le raisonnement médicaux dans divers scénarios.

Fonctionnement des outils d’auto-apprentissage et de recherche sur le web dans Med-Gemini

Cependant, Google a également développé deux nouveaux ensembles de données pour son modèle. Le premier, MedQA-R (Reasoning), étend MedQA avec des explications de raisonnement générées synthétiquement et appelées « chaînes de pensée » (CoTs). Le second, MedQA-RS (Reasoning and Search), fournit au modèle des instructions pour utiliser les résultats de la recherche sur le web comme contexte supplémentaire afin d’améliorer la précision des réponses. Si une question médicale donne lieu à une réponse incertaine, le modèle est invité à effectuer une recherche sur le web pour obtenir des informations supplémentaires afin de lever l’incertitude.

Med-Gemini a été testé sur 14 points de référence médicaux et a établi une nouvelle performance de pointe (SoTA : State-of-the-art) sur 10 d’entre eux, surpassant la famille de modèles GPT-4 sur tous les points de référence pour lesquels une comparaison a pu être effectuée. Sur le benchmark MedQA (USMLE), Med-Gemini a atteint une précision de 91,1 % en utilisant sa stratégie de recherche guidée par l’incertitude, surpassant de 4,5 % le précédent LLM médical de Google, Med-PaLM 2.

Sur sept critères multimodaux, y compris le défi de l’image du New England Journal of Medicine (NEJM) (images de cas cliniques difficiles à partir desquels un diagnostic est établi à partir d’une liste de 10), Med-Gemini a obtenu de meilleurs résultats que GPT-4 avec une marge relative moyenne de 44,5 %.

« Bien que les résultats … soient prometteurs, des recherches supplémentaires importantes sont nécessaires », ont déclaré les chercheurs. « Par exemple, nous n’avons pas envisagé de restreindre les résultats de la recherche à des sources médicales faisant davantage autorité, d’utiliser la recherche multimodale ou d’effectuer une analyse de la précision et de la pertinence des résultats de la recherche et de la qualité des citations. En outre, il reste à voir s’il est possible d’enseigner aux plus petits LLM l’utilisation de la recherche sur le web. Nous laissons ces explorations à des travaux futurs ».

Extraction d’informations spécifiques dans de longs dossiers médicaux électroniques

Les dossiers médicaux électroniques (DME) peuvent être longs, mais les médecins doivent savoir ce qu’ils contiennent. Pour compliquer les choses, ils contiennent généralement des similitudes textuelles (« diabète sucré » contre « néphropathie diabétique »), des fautes d’orthographe, des acronymes (« Rx » contre « prescription ») et des synonymes (« accident vasculaire cérébral » contre  » accident cérébrovasculaire ») – des éléments qui peuvent constituer un défi pour l’IA.

Pour tester la capacité de Med-Gemini à comprendre et à raisonner à partir d’informations médicales en contexte long, les chercheurs ont effectué une tâche dite « aiguille dans une botte de foin » en utilisant une grande base de données accessible au public, le Medical Information Mart for Intensive Care ou MIMIC-III, qui contient des données de santé dépersonnalisées de patients admis en soins intensifs.

L’objectif était de permettre au modèle de retrouver la mention pertinente d’un état pathologique, d’un symptôme ou d’une procédure rare et subtile (l' »aiguille ») parmi une vaste collection de notes cliniques dans le dossier médical électronique (la « botte de foin »).

Deux cents exemples ont été étudiés, chaque exemple consistant en une collection de notes dépersonnalisées provenant de 44 patients d’unités de soins intensifs ayant de longs antécédents médicaux. Ces patients devaient répondre aux critères suivants:

  • Plus de 100 notes médicales, la longueur de chaque exemple étant comprise entre 200 000 et 700 000 mots.
  • Dans chaque exemple, l’affection n’était mentionnée qu’une seule fois.
  • Chaque échantillon ne comportait qu’une seule condition d’intérêt.

La tâche de recherche d’une aiguille dans une botte de foin s’est déroulée en deux étapes. Tout d’abord, Med-Gemini a dû récupérer toutes les mentions du problème médical spécifié dans les nombreux dossiers. Ensuite, le modèle devait évaluer la pertinence de toutes les mentions, les classer par catégories et déterminer si le patient avait des antécédents de ce problème, en justifiant clairement sa décision.

Exemple des capacités de Med-Gemini en matière de contexte long

Par rapport à la méthode SoTA, Med-Gemini a obtenu de bons résultats dans la tâche « aiguille dans la botte de foin ». Il a obtenu une précision de 0,77 par rapport à la méthode SoTA (0,85) et a surpassé la méthode SoTA en termes de rappel : 0,76 contre 0,73.

« L’aspect le plus remarquable de Med-Gemini est sans doute ses capacités de traitement des contextes longs, car elles ouvrent de nouvelles frontières en matière de performances et de nouvelles possibilités d’application, auparavant irréalisables, pour les systèmes d’IA médicale », ont déclaré les chercheurs. « La performance de Med-Gemini-M 1.5 démontre son potentiel à réduire de manière significative la charge cognitive et à augmenter les capacités des cliniciens en extrayant et en analysant efficacement les informations à partir de vastes quantités de données sur les patients ».

Pour une discussion facile à comprendre sur ces points clés de la recherche, et une mise à jour sur la bataille de boue entre Google et Microsoft, regardez la vidéo d’AI Explained à partir de 13:38.

Le nouveau modèle OpenAI est imminent et les enjeux de l’IA augmentent (plus Med Gemini, Chatbot GPT 2 et Scale AI)

Conversations avec Med-Gemini

Dans un test d’utilité dans le monde réel, Med-Gemini a été interrogé par un patient au sujet d’une grosseur cutanée qui le démangeait. Après avoir demandé une image, le modèle a posé des questions complémentaires appropriées et a correctement diagnostiqué la lésion rare, en recommandant à l’utilisateur ce qu’il devait faire ensuite.

Exemple de dialogue diagnostique de Med-Gemini dans un contexte dermatologique

Il a également été demandé à Med-Gemini d’interpréter une radiographie du thorax pour un médecin qui attendait le rapport officiel du radiologue et de formuler une version en anglais simple du rapport qui pourrait être fournie au patient.

L’aide au dialogue diagnostique de Med-Gemini dans un environnement radiologique

« Les capacités de conversation multimodale de Med-Gemini-M 1.5 sont prometteuses étant donné qu’elles sont obtenues sans ajustement spécifique du dialogue médical », ont déclaré les chercheurs. « De telles capacités permettent des interactions transparentes et naturelles entre les personnes, les cliniciens et les systèmes d’IA.

Toutefois, les chercheurs reconnaissent que des travaux supplémentaires sont nécessaires.

« Cette capacité présente un potentiel important pour des applications utiles dans le monde réel, y compris l’assistance aux cliniciens et aux patients, mais elle comporte évidemment des risques très importants », ont-ils déclaré. « Tout en soulignant le potentiel de la recherche future dans ce domaine, nous n’avons pas rigoureusement évalué les capacités de conversation clinique dans ce travail, comme l’ont déjà fait d’autres chercheurs dans le cadre de recherches dédiées à l’IA diagnostique conversationnelle. »

Visions de l’avenir

Et maintenant ? Les chercheurs admettent qu’il reste encore beaucoup à faire, mais les capacités initiales du modèle Med-Gemini sont certainement prometteuses. Il est important de noter qu’ils prévoient d’intégrer les principes de l’IA responsable, y compris la protection de la vie privée et l’équité, tout au long du processus de développement du modèle.

« Les considérations relatives à la protection de la vie privée, en particulier, doivent être ancrées dans les politiques et réglementations existantes en matière de soins de santé qui régissent et protègent les informations relatives aux patients », ont déclaré les chercheurs. « L’équité est un autre domaine qui peut nécessiter une attention particulière, car il existe un risque que les systèmes d’IA dans les soins de santé reflètent ou amplifient involontairement les préjugés et les inégalités historiques, ce qui pourrait conduire à des performances disparates des modèles et à des résultats néfastes pour les groupes marginalisés. »

Mais, en fin de compte, Med-Gemini est considéré comme un outil utile.

« Les grands modèles linguistiques multimodaux ouvrent une nouvelle ère de possibilités pour la santé et la médecine », ont déclaré les chercheurs. « Les capacités démontrées par Gemini et Med-Gemini suggèrent un bond en avant significatif dans la profondeur et l’étendue des possibilités d’accélérer les découvertes biomédicales et d’aider à la prestation et à l’expérience des soins de santé. Cependant, il est primordial que les avancées en matière de capacités de modélisation s’accompagnent d’une attention méticuleuse à la fiabilité et à la sécurité de ces systèmes. En donnant la priorité à ces deux aspects, nous pouvons envisager de manière responsable un avenir où les capacités des systèmes d’IA seront des accélérateurs significatifs et sûrs du progrès scientifique et des soins en médecine ».

https://arxiv.org/abs/2404.18416