Nouvelles de la Journée de la Santé — Les performances de ChatGPT dans la génération de diagnostics différentiels semblent être similaires à celles des experts médicaux des services d’urgence, selon une lettre de recherche publiée en ligne le 9 septembre dans le Annales de médecine d’urgence pour coïncider avec le congrès annuel européen de médecine d’urgence, qui s’est tenu du 17 au 20 septembre à Barcelone, en Espagne.
Hidde ten Berg, de l’hôpital Jeroen Bosch d’Utrecht, aux Pays-Bas, et ses collègues ont étudié la capacité de ChatGPT à générer des diagnostics différentiels précis basés sur les notes du médecin enregistrées lors de la présentation initiale aux urgences. L’analyse comprenait une analyse rétrospective de 30 patients indifférenciés se présentant dans un hôpital universitaire non universitaire en mars 2022 avec un seul diagnostic prouvé. Les résultats de ChatGPT ont été comparés aux premiers diagnostics différentiels formulés par les équipes cliniques et aux principaux diagnostics sans tests de laboratoire.
Les chercheurs ont constaté que les médecins ont correctement inclus le diagnostic dans les cinq principaux diagnostics différentiels pour 83 pour cent des cas, similaire à ChatGPT v3.5 (77 pour cent) et v4.0 (87 pour cent). En incluant les données de laboratoire, la précision des médecins a augmenté à 87 pour cent et la précision de ChatGPT v3.5 a augmenté à 97 pour cent, tandis que la précision de la version 4.0 est restée à 87 pour cent. Les médecins ont surpassé ChatGPT pour choisir le bon diagnostic principal (60 contre 37 pour cent pour la version 3.5 et 53 pour cent pour la version 4.0). Ces valeurs sont passées à 53 pour cent pour les médecins disposant de données de laboratoire, à 60 pour cent pour la version 3.5 et à 53 pour cent pour la version 4.0. Les diagnostics différentiels des médecins et de ChatGPT se chevauchaient à 60 %. Cependant, les chercheurs ont noté que ChatGPT peut également générer des réponses variées à la même requête.
« Cette incohérence observée dans les résultats de ChatGPT souligne l’imprévisibilité inhérente aux grands modèles de langage et souligne le fait qu’il s’agit simplement d’outils qui peuvent aider, mais pas remplacer le jugement des médecins », écrivent les auteurs.
Résumé/Texte intégral (un abonnement ou un paiement peut être requis)

