ChatGPT, médecin incompétent ? Une étude remet en question les IA diagnostic.
Une étude publiée dans Nature Medicine montre que plusieurs modèles d’IA, dont ChatGPT et Llama, ne font pas mieux qu’une simple recherche en ligne pour poser un diagnostic. Selon Rebecca Payne, chercheuse à l’Université d’Oxford et co-auteure de l’étude, « il y a un emballement autour des IA, mais elles ne sont tout simplement pas prêtes à remplacer un médecin ».
Les outils d’intelligence artificielle, comme le célèbre ChatGPT, ne sont pas efficaces pour poser un diagnostic, selon une étude publiée lundi, qui examine de près l’intérêt médical des IA à l’échelle mondiale. Publiée dans la revue Nature Medicine, cette étude, réalisée auprès de 1.300 personnes au Royaume-Uni, révèle que plusieurs modèles d’IA – ChatGPT, Llama (Meta) ou Command R+ – ne sont pas plus performants qu’une recherche en ligne lorsque les patients s’interrogent sur leurs symptômes.
« Il y a un emballement autour des IA, mais elles ne sont tout simplement pas prêtes à remplacer un médecin », a déclaré Rebecca Payne, chercheuse à l’Université d’Oxford et co-auteure de l’étude, dans un communiqué. Les participants à l’étude n’étaient pas réellement malades ; ils ont participé à une sorte de jeu de rôle où les chercheurs leur ont attribué dix ensembles différents de symptômes, avec un diagnostic unanimement reconnu par le corps médical.
Cependant, seuls un tiers des participants ont reçu un diagnostic correct, ce qui n’est pas mieux que ceux qui ont effectué une recherche classique sur internet. Bien que certaines études aient montré que ChatGPT et d’autres modèles réussissent bien à des épreuves médicales, lorsqu’ils sont mis dans la position d’un étudiant en médecine devant des questions à choix multiples, la situation change lorsqu’il s’agit d’interagir avec de vraies personnes. Ces dernières peuvent manquer de précision dans la description de leurs symptômes et ne pas fournir tous les éléments essentiels, selon les chercheurs.
Cette étude s’inscrit dans un contexte de questionnement sur l’apport potentiel des IA pour l’information médicale, notamment face aux délais souvent longs pour consulter un médecin dans de nombreux pays, y compris développés. En France, la Haute autorité de santé (HAS) doit bientôt se prononcer sur la pertinence d’un usage direct de l’IA pour les patients. Fin 2025, elle avait déjà estimé que ces outils pourraient être utiles aux soignants, à condition d’être utilisés de manière raisonnée.
L’étude publiée lundi présente certaines limites, dont une méthodologie fondée sur des scénarios fictifs. De plus, les modèles utilisés ont été largement remplacés par des versions plus performantes depuis. Toutefois, « c’est une étude très importante qui souligne que les chatbots posent de vrais risques médicaux pour le grand public », a déclaré à l’AFP David Shaw, spécialiste en bioéthique à l’université de Maastricht (Pays-Bas).

