Das Bild zeigt eine Übungsaufgabe für die United States Medical Licensing Examination (USMLE). Quelle: https://www.usmle.org/exam-resources/step-1-materials/step-1-sample-test-questions

KI in der Medizin

Wie GPT-4 bei Medizinprüfungen versagt - und leider trotzdem überzeugt

GPT-4 gilt als das fortschrittlichste Sprachmodell. Obwohl es in der Lage ist, komplexe medizinische Fragen zu beantworten, bleibt es nicht ohne Fehler. In einer aktuellen Studie haben Wissenschaftler des Forschungszentrums L3S, des IIT Kharagpur und der University of Michigan untersucht, welche Fehlerarten GPT-4 bei medizinischen Prüfungsfragen macht und warum diese teilweise sogar von Fachleuten als „vernünftig“ eingestuft werden. Die Untersuchung zeigt, dass GPT-4 nicht nur durch seine korrekten Antworten überzeugt, sondern auch durch seine Fehler – und dass es noch viel Verbesserungspotenzial gibt.

In der Welt der künstlichen Intelligenz (KI) gibt es viel Hype um GPT-4. Das Modell zeigt beeindruckende Leistungen, insbesondere bei der Beantwortung medizinischer Fragen. Im Datensatz MedQA-USMLE, der Fragen der US-amerikanischen Medizinlizenzprüfung (USMLE) enthält, erreicht GPT-4 eine bemerkenswerte Genauigkeit von 86,7 Prozent. Doch selbst diese Erfolgsquote hinterlässt 14 Prozent falsche Antworten - keine Kleinigkeit, wenn es um eine medizinische Diagnose geht.

„Wir wollten verstehen, warum GPT-4 in diesen Fällen falsch liegt“, erklärt Soumyadeep Roy, Doktorand am IIT Kharagpur und Hauptautor der Studie. Das Team erstellte eine Fehler-Taxonomie, die die Antworten von GPT-4 in sieben Fehlerkategorien einteilt. Dabei wurde insbesondere auf das Reasoning des Modells eingegangen, also auf die Denkprozesse und Schlussfolgerungen.

Plausibel, aber falsch

In einem aufwendigen Verfahren ließ das Forscherteam 44 medizinische Fachleute insgesamt 300 falsche Antworten von GPT-4 analysieren. Interessanterweise stellte sich heraus, dass ein Großteil der Fehler als „vernünftige Antwort von GPT-4“ gewertet wurde. Das zeigt, dass selbst bei falschen Diagnosen die Argumentation von GPT-4 plausibel klingt – ein großes Problem für Mediziner, die diese Technologie als Unterstützung nutzen wollen.

„Es ist erschreckend zu sehen, dass GPT-4 oft so überzeugend argumentiert, dass selbst Experten die Fehler nicht sofort erkennen“, betont Co-Autor Uwe Hadler vom L3S. Ein häufig beobachteter Fehler: GPT-4 erkannte zwar die Symptome und interpretierte sie korrekt, stellte aber dennoch eine falsche Diagnose, weil es an der falschen Entscheidung festhielt.

KI verteidigt Fehler

Eine der größten Herausforderungen besteht darin, dass GPT-4 oft versucht, seine anfängliche Entscheidung zu rechtfertigen, anstatt auf die gegebenen Informationen richtig einzugehen. Dies führt zu Fehlern, die von der KI hartnäckig verteidigt werden. „Wenn GPT-4 eine Entscheidung getroffen hat, gibt es kein Zurück mehr“, heißt es in der Studie.

Trotz dieser Schwächen wird GPT-4 weiterhin als potenziell wertvolles Werkzeug im medizinischen Bereich gesehen, vor allem wegen seiner Fähigkeit, medizinische Informationen zusammenzufassen und Diagnosen vorzuschlagen. Die Forscher weisen jedoch darauf hin, dass ein detailliertes Verständnis der Fehlerquellen entscheidend ist, um die Technologie weiter zu verbessern und sicherer zu machen.

Lernerfolge ausbaufähig

Ein weiterer Aspekt der Studie war das sogenannte „Drift-Verhalten“ von GPT-4. Das bedeutet, dass sich die Leistung des Modells über die Zeit verändern kann. „Es ist faszinierend, wie rasant sich GPT-4 im Laufe der Zeit verbessert“, sagt Hadler. Eine Analyse der Antworten von GPT-4 im Abstand von mehreren Monaten zeigte, dass es in 23,3 Prozent der Fälle weiterhin Fehler macht, die es bereits vorher gemacht hatte. „Das zeigt, dass es noch viel Raum für Verbesserungen gibt.“

Die Ergebnisse der Studie sind ein zweischneidiges Schwert: Auf der einen Seite zeigt GPT-4 beeindruckende Fähigkeiten bei der Beantwortung medizinischer Fragen, auf der anderen Seite müssen die Fehlerarten genau verstanden und adressiert werden, bevor solche Systeme in der medizinischen Praxis breiten Einsatz finden können. Bis dahin bleibt die künstliche Intelligenz ein Werkzeug, das mit Vorsicht zu genießen ist.

„Die Tatsache, dass GPT-4 auch bei falschen Antworten so überzeugend klingt, ist ein Hinweis darauf, wie schwierig es selbst für Experten sein kann, die Grenzen von KI-basierten Systemen zu erkennen und die richtige Balance zwischen Vertrauen und kritischer Hinterfragung zu finden," so die Autoren.

Soumyadeep Roy, Aparup Khatua, Fatemeh Ghoochani, Uwe Hadler, Wolfgang Nejdl, Niloy Ganguly: Beyond Accuracy: Investigating Error Types in GPT-4 Responses to USMLE Questions. SIGIR 2024: 1073-1082  dl.acm.org/doi/10.1145/3626772.3657882

Kontakt

Soumyadeep Roy

Soumyadeep ist Doktorand am IIT Kharagpur und war 2,5 Jahre wissenschaftlicher Mitarbeiter am Leibniz KI-Labor des L3S. Seine Forschungsinteressen sind die Verarbeitung natürlicher Sprache und KI in der Medizin. Schwerpunkt seiner Doktorarbeit ist die Entwicklung von Techniken zur Anpassung von Domänen für verschiedene medizinische NLP- Anwendungen.

Uwe Hadler, M. Sc.

Uwe Hadler ist wissenschaftlicher Mitarbeiter am L3S und unterstützt über das Mittelstand-Digital Zentrum Hannover Unternehmen bei der Einführung von KI-Systemen. Sein Forschungsgebiet sind Sprachmodelle und die Entwicklung von Methoden, um die Zuverlässigkeit und Vertrauenswürdigkeit von Sprachmodellen zu verbessern.