Het internet is een krachtig instrument voor zelfstudie medische onderwerpen voor veel patiënten.
Nu ChatGPT binnen handbereik is van patiënten en onderzoekers Brigham en Vrouwenziekenhuisstichtend lid van Mis van generaal Brigham gezondheidssysteem, evalueerde de consistentie waarmee de kunstmatige intelligentie-chatbot aanbevelingen doet voor de behandeling van kanker die aansluiten bij de richtlijnen van het National Comprehensive Cancer Network (NCCN).
Hun bevindingen, gepubliceerd in JAMA-oncologielaten zien dat ChatGPT 3.5 in ongeveer een derde van de gevallen een ongepaste (“niet-overeenkomende”) aanbeveling gaf, wat de noodzaak benadrukt om zich bewust te zijn van de beperkingen van de technologie.
« Les patients devraient se sentir habilités à s’informer eux-mêmes sur leurs problèmes de santé, mais ils devraient toujours en discuter avec un clinicien, et les ressources sur Internet ne devraient pas être consultées de manière isolée », a déclaré l’auteur Pennenvriend. Danielle Bitterman, MD, van de Afdeling Radiotherapie bij Brigham and Women’s Hospital en bij Programma voor kunstmatige intelligentie in de geneeskunde (AIM). van generaal Brigham.
“ChatGPT-reacties kunnen heel menselijk lijken en behoorlijk overtuigend zijn. Maar als het om klinische besluitvorming gaat, zijn er veel ingewikkeldheden die zijn afgestemd op de unieke situatie van elke patiënt. Een goed antwoord kan heel genuanceerd zijn, en niet noodzakelijkerwijs iets dat ChatGPT of een ander groot taalmodel kan bieden.
De opkomst van kunstmatige intelligentie-instrumenten in de gezondheidszorg is revolutionair geweest en zou het zorgcontinuüm potentieel positief kunnen hervormen.
Mass General Brigham, als een van de beste geïntegreerde academische gezondheidszorgsystemen en grootste innovatiebedrijven van het land, loopt voorop bij het uitvoeren van rigoureus onderzoek naar nieuwe en opkomende technologieën om de verantwoorde integratie van gezondheidszorg te informeren. .
Hoewel medische besluitvorming door vele factoren kan worden beïnvloed, kozen Bitterman en collega’s ervoor om te evalueren hoe de aanbevelingen van ChatGPT aansluiten bij de NCCN-richtlijnen, die worden gebruikt door artsen in instellingen in het hele land.
Ze concentreerden zich op de drie meest voorkomende vormen van kanker (borst-, prostaat- en longkanker) en brachten ChatGPT ertoe om voor elke vorm van kanker een behandelaanpak voor te stellen op basis van de ernst van de ziekte.
In totaal namen de onderzoekers 26 unieke diagnostische beschrijvingen op en gebruikten ze vier enigszins verschillende aanwijzingen om ChatGPT te vragen een behandelaanpak voor te stellen, wat een totaal van 104 aanwijzingen opleverde.
Bijna alle reacties (98%) omvatten ten minste één behandelaanpak die consistent was met de NCCN-richtlijnen. Onderzoekers ontdekten echter dat 34 procent van deze reacties ook een of meer inconsistente aanbevelingen bevatte, die soms moeilijk te detecteren waren onder anderszins krachtige richtlijnen.
Een inconsistent behandeladvies werd gedefinieerd als een aanbeveling die slechts gedeeltelijk juist was; voor lokaal gevorderde borstkanker bijvoorbeeld een aanbeveling voor alleen een operatie, zonder vermelding van een andere therapeutische modaliteit.
Opvallend is dat in slechts 62% van de gevallen volledige overeenstemming over de score voorkwam, wat zowel de complexiteit van de NCCN-richtlijnen zelf benadrukt als de mate waarin ChatGPT-resultaten vaag of moeilijk te interpreteren kunnen zijn.
In 12,5% van de gevallen veroorzaakte ChatGPT ‘hallucinaties’ of een behandeladvies dat volledig afwezig was in de NCCN-richtlijnen. Deze omvatten aanbevelingen voor nieuwe of curatieve therapieën voor niet-geneesbare kankers.
De auteurs wezen erop dat deze vorm van verkeerde informatie de verwachtingen van patiënten ten aanzien van de behandeling verkeerd kan definiëren en mogelijk van invloed kan zijn op de relatie tussen arts en patiënt.
In de toekomst onderzoeken onderzoekers hoe goed patiënten en artsen onderscheid kunnen maken tussen medisch advies geschreven door een arts en dat van een groot taalmodel (LLM) zoals ChatGPT. Ze moedigen ChatGPT ook aan om meer gedetailleerde klinische cases te presenteren om de klinische kennis verder te evalueren.
De auteurs gebruikten GPT-3.5-turbo-0301, een van de grootste modellen die beschikbaar waren op het moment dat ze het onderzoek uitvoerden, en de modelklasse die momenteel wordt gebruikt in de open access-versie van ChatGPT (een nieuwere versie, GPT-4, is alleen beschikbaar met het betaalde abonnement).
Ze gebruikten ook de NCCN-richtlijnen van 2021, aangezien GPT-3.5-turbo-0301 is ontwikkeld op basis van gegevens uit september 2021. Hoewel de resultaten kunnen variëren als andere LLM’s en/of klinische richtlijnen worden gebruikt, wijzen de onderzoekers erop dat veel LLM’s vergelijkbaar zijn in de manier waarop ze zijn geconstrueerd en de beperkingen die ze hebben.
“Het is een open onderzoeksvraag in hoeverre LLM’s coherente, logische antwoorden bieden wanneer vaak ‘hallucinaties’ worden waargenomen”, aldus de eerste auteur. Shan Chen, MS, van het AIM-programma.
“Gebruikers zullen waarschijnlijk antwoorden zoeken bij LLM’s om meer te weten te komen over gezondheidsgerelateerde onderwerpen, vergelijkbaar met hoe Google-zoekopdrachten zijn gebruikt. Tegelijkertijd moeten we het bewustzijn vergroten dat LLM’s niet het equivalent zijn van opgeleide gezondheidszorgprofessionals.
Bron: BWH
Oorspronkelijk gepubliceerd in The European Times.