Les recommandations ChatGPT correctes et incorrectes pour les traitements contre le cancer basés sur des lignes directrices se mélangent dans un tiers des réponses du chatbot, rendant les erreurs plus difficiles à détecter.
Internet est un outil puissant d’auto-éducation sur sujets médicaux pour de nombreux patients.
Avec ChatGPT désormais à portée de main des patients, des chercheurs de Hôpital Brigham et femmesmembre fondateur du Messe du général Brigham système de santé, a évalué la cohérence avec laquelle le chatbot à intelligence artificielle fournit des recommandations pour le traitement du cancer qui s’alignent sur les lignes directrices du National Comprehensive Cancer Network (NCCN).
Leurs conclusions, publiées dans JAMA Oncologiemontrent que ChatGPT 3.5 a fourni une recommandation inappropriée (« non concordante ») dans environ un tiers des cas, soulignant la nécessité de prendre conscience des limites de la technologie.
« Les patients devraient se sentir habilités à s’informer eux-mêmes sur leurs problèmes de santé, mais ils devraient toujours en discuter avec un clinicien, et les ressources sur Internet ne devraient pas être consultées de manière isolée », a déclaré l’auteur correspondant. Danielle Bitterman, MD, de la Département de radio-oncologie au Brigham and Women’s Hospital et au Programme d’intelligence artificielle en médecine (AIM) du général de masse Brigham.
« Les réponses de ChatGPT peuvent ressembler beaucoup à celles d’un humain et peuvent être assez convaincantes. Mais lorsqu’il s’agit de prise de décision clinique, il existe de nombreuses subtilités adaptées à la situation unique de chaque patient. Une bonne réponse peut être très nuancée, et pas nécessairement quelque chose que ChatGPT ou un autre grand modèle de langage peut fournir.
L’émergence d’outils d’intelligence artificielle dans le domaine de la santé a été révolutionnaire et pourrait potentiellement remodeler positivement le continuum de soins.
Mass General Brigham, en tant que l’un des meilleurs systèmes de santé universitaires intégrés et des plus grandes entreprises d’innovation du pays, ouvre la voie en menant des recherches rigoureuses sur les technologies nouvelles et émergentes pour éclairer l’incorporation responsable de l’IA dans la prestation des soins, le soutien de la main-d’œuvre et les processus administratifs.
Bien que la prise de décision médicale puisse être influencée par de nombreux facteurs, Bitterman et ses collègues ont choisi d’évaluer dans quelle mesure les recommandations de ChatGPT s’alignent sur les lignes directrices du NCCN, utilisées par les médecins des établissements de tout le pays.
Ils se sont concentrés sur les trois cancers les plus courants (cancer du sein, de la prostate et du poumon) et ont incité ChatGPT à proposer une approche thérapeutique pour chaque cancer en fonction de la gravité de la maladie.
Au total, les chercheurs ont inclus 26 descriptions de diagnostic uniques et ont utilisé quatre invites légèrement différentes pour demander à ChatGPT de proposer une approche thérapeutique, générant un total de 104 invites.
Presque toutes les réponses (98 %) incluaient au moins une approche thérapeutique conforme aux directives du NCCN. Cependant, les chercheurs ont constaté que 34 pour cent de ces réponses comprenaient également une ou plusieurs recommandations non concordantes, parfois difficiles à détecter au milieu d’orientations autrement solides.
Une recommandation de traitement non concordante était définie comme une recommandation qui n’était que partiellement correcte ; par exemple, pour un cancer du sein localement avancé, une recommandation de chirurgie seule, sans mention d’une autre modalité thérapeutique.
Notamment, un accord complet dans la notation n’a eu lieu que dans 62 % des cas, soulignant à la fois la complexité des lignes directrices du NCCN elles-mêmes et la mesure dans laquelle les résultats de ChatGPT pourraient être vagues ou difficiles à interpréter.
Dans 12,5 % des cas, ChatGPT a produit des « hallucinations » ou une recommandation de traitement totalement absente des directives du NCCN. Celles-ci comprenaient des recommandations de thérapies nouvelles ou de thérapies curatives pour les cancers non curatifs.
Les auteurs ont souligné que cette forme de désinformation peut définir de manière incorrecte les attentes des patients concernant le traitement et potentiellement avoir un impact sur la relation clinicien-patient.
À l’avenir, les chercheurs étudient dans quelle mesure les patients et les cliniciens peuvent faire la distinction entre les conseils médicaux rédigés par un clinicien et ceux d’un grand modèle de langage (LLM) comme ChatGPT. Ils incitent également ChatGPT à présenter des cas cliniques plus détaillés pour évaluer davantage ses connaissances cliniques.
Les auteurs ont utilisé GPT-3.5-turbo-0301, l’un des plus grands modèles disponibles au moment où ils ont mené l’étude et la classe de modèles actuellement utilisée dans la version en libre accès de ChatGPT (une version plus récente, GPT-4, est disponible uniquement avec l’abonnement payant).
Ils ont également utilisé les lignes directrices du NCCN 2021, car GPT-3.5-turbo-0301 a été développé à partir de données datant de septembre 2021. Bien que les résultats puissent varier si d’autres LLM et/ou lignes directrices cliniques sont utilisés, les chercheurs soulignent que de nombreux LLM sont similaires dans le la manière dont ils sont construits et les limites qu’ils possèdent.
« C’est une question de recherche ouverte quant à savoir dans quelle mesure les LLM fournissent des réponses logiques cohérentes alors que des ‘hallucinations’ sont souvent observées », a déclaré le premier auteur. Shan Chen, MS, du programme AIM.
« Les utilisateurs sont susceptibles de chercher des réponses auprès des LLM pour se renseigner sur des sujets liés à la santé, de la même manière que les recherches Google ont été utilisées. Dans le même temps, nous devons faire prendre conscience que les LLM ne sont pas l’équivalent de professionnels de la santé formés.
Source: BWH
Publié à l’origine dans The European Times.