Skip to main content

20 Sep, 2023

ChatGPT prend des décisions cliniques correctes

ChatGPT prend des décisions cliniques correctes

Mais ne pensez pas à remplacer votre médecin par un chatbot maintenant, ni jamais.

ChatGPT pourrait-il un jour aider les médecins à diagnostiquer les patients ? Cela sera peut-être possible un jour. Dans une étude récente, des chercheurs ont alimenté des informations dans ChatGPT provenant de patients fictifs trouvés dans un manuel de référence médicale en ligne pour découvrir dans quelle mesure le chatbot pouvait prendre des décisions cliniques telles que le diagnostic des patients et la prescription de traitements.

Les chercheurs ont constaté que ChatGPT était précis à 72 % dans ses décisions, bien que le robot soit meilleur dans certains types de tâches cliniques que dans d’autres. L’étude n’a également montré aucune preuve de biais fondé sur l’âge ou le sexe. Même si l’étude était de petite envergure et n’utilisait pas de données réelles sur les patients, les résultats soulignent le potentiel des chatbots pour contribuer à rendre les soins médicaux plus efficaces et moins biaisés.

« Cette étude a examiné les performances du GPT tout au long du scénario clinique », a déclaré Marc Succi, président associé de l’innovation et de la commercialisation au Mass General Brigham, un système de soins de santé de la région de Boston, et auteur principal de l’étude.

Publiée dans le Journal of Medical Internet Research le 22 août, l’étude a utilisé les 36 vignettes cliniques du Merck Manual, un manuel de référence médicale en ligne, en tant que patients pour ChatGPT afin de passer par le processus de diagnostic et de traitement.

Les vignettes cliniques sont des études de cas de patients qui sont utilisées pour aider à former les professionnels de la santé à la pensée critique et aux compétences de prise de décision tout en prenant soin des patients. Les chercheurs ont saisi le texte de chaque vignette, puis ont parcouru les questions présentées dans le manuel pour chaque cas. Les chercheurs ont choisi d’exclure toute question relative à l’examen des images, car ChatGPT est basé sur du texte.

« Je pense que des programmes de discussion en ligne bien testés et conçus peuvent aider les médecins ; ils ne devraient jamais remplacer les médecins.

—PAUL ROOT WOLPE, DIRECTEUR DU CENTRE D’ÉTHIQUE À L’UNIVERSITÉ EMORY

Les chercheurs ont d’abord demandé au robot de générer une liste de diagnostics différentiels basés sur la vignette, en d’autres termes, une liste de diagnostics possibles qui ne peuvent pas être écartés au départ. Il a ensuite été demandé au chatbot de suggérer les tests à réaliser, suivi d’une demande de diagnostic final.

Enfin, les chercheurs ont demandé à ChatGPT quel traitement ou soins de suivi le patient devrait recevoir. Certaines des questions du manuel demandaient également à ChatGPT des détails médicaux de chaque cas, qui n’étaient pas nécessairement pertinents pour recommander des soins cliniques.

Dans l’ensemble, ChatGPT a donné des réponses précises à 72 %, mais la précision variait en fonction du type de tâche clinique. La tâche pour laquelle le chatbot était le plus efficace consistait à établir un diagnostic final précis une fois qu’il avait reçu à la fois les informations initiales sur le patient et les résultats des tests de diagnostic supplémentaires, avec un taux de réussite de 77 %. Les questions désignées comme « diverses », qui demandaient des détails médicaux sur chaque cas, ont atteint une précision similaire à 76 pour cent.

Cependant, le chatbot n’était pas aussi efficace pour accomplir d’autres types de tâches cliniques. Il était efficace à environ 69 % à la fois pour recommander les tests de diagnostic corrects pour la description initiale du patient et pour prescrire un traitement et des soins de suivi une fois le diagnostic final posé. ChatGPT s’en sort le moins bien en matière de diagnostic différentiel, avec une précision de seulement 60 %.

Marc Succi a déclaré qu’il n’était pas surpris que le chatbot ait le plus de difficultés avec le diagnostic différentiel. « C’est vraiment ce qu’est la faculté de médecine et la résidence : il s’agit de pouvoir établir de bons différentiels avec très peu d’informations présentées », a-t-il déclaré.

Marc Succi précise aussi qu’il y avait encore un long chemin à parcourir avant que les chatbots puissent devenir une partie courante du travail clinique des médecins. ChatGPT lui-même ne jouera peut-être jamais ce rôle, a déclaré James Chow, professeur agrégé de radio-oncologie à l’Université de Toronto qui n’a pas participé à l’étude.

En raison du fonctionnement de ChatGPT, il est impossible de connaître ou de contrôler pleinement la manière dont les données sont utilisées ou la manière dont le bot les présente. Dans ses recherches, James Chow travaille au développement d’un chatbot médical plus spécifiquement formé pour gérer et présenter des informations médicales.

Même si des chatbots spécialisés servent un jour d’assistants dans un cabinet médical, ils ne devraient jamais remplacer un médecin humain, a déclaré Paul Root Wolpe, directeur du Centre d’éthique de l’Université Emory d’Atlanta, qui n’a pas participé à l’étude.

« Je pense que des programmes de discussion en ligne bien testés et conçus peuvent aider les médecins ; ils ne devraient jamais remplacer les médecins », souligne Paul Root Wolpe. Comme toute technologie médicale, Wolpe a déclaré qu’un processus d’essai clinique serait nécessaire pour déterminer si une technologie telle que les chatbots peut être utilisée avec de vrais patients.

L’un des avantages de l’utilisation d’un chatbot comme ChatGPT pourrait être une réduction des préjugés médicaux. Dans l’étude, les chercheurs n’ont trouvé aucune preuve d’une quelconque différence dans les réponses du programme par rapport à l’âge ou au sexe du patient, qui étaient indiqués dans chaque vignette. Cependant, Paul Root Wolpe a déclaré que les préjugés pouvaient encore disparaître.

Cependant, Paul Root Wolpe assure que des biais pourraient toujours apparaître dans les réponses des robots dans les cas où les données et la recherche médicale elle-même sont biaisées. Quelques exemples pourraient être les lectures de l’oxymètre de pouls sur des personnes à la peau plus foncée ou les symptômes de crise cardiaque chez les femmes, qui, selon des études, sont moins susceptibles d’être ce que les gens considèrent comme des symptômes de crise cardiaque « typiques ».

L’étude présente plusieurs limites, notamment le fait qu’elle n’a pas utilisé de données réelles sur les patients et n’a inclus qu’un petit nombre de patients (fictifs). Le fait que les chercheurs ne sachent pas comment ChatGPT a été formé est également une limite, conclut Marc Succi, et que même si les résultats sont encourageants, les chatbots ne remplaceront pas votre médecin de sitôt. « Votre médecin ne va nulle part », dit-il.

https://spectrum.ieee.org/chatgpt-doctor

https://www.massgeneral.org/doctors/22621/marc-succi

https://www.jmir.org/2023/1/e48659/

https://www.merckmanuals.com/professional/pages-with-widgets/case-studies?mode=list

https://my.clevelandclinic.org/health/diagnostics/22327-differential-diagnosis