Informatik

ChatGPT würde US-Mediziner-Examen bestehen

KI-System erreicht bei dreiteiligem US-Medizinertest überraschend gute Werte

Medizin-KI
Das KI-System ChatGPT schafft es sogar, einen offiziellen US-Medizinertest zu bestehen. © Blue Planet Studio/ Getty images

KI als Mediziner: ChatGPT könnte selbst ein notorisch schweres US-Medizinerexamen bestehen, wie eine Studie belegt. Das KI-System schaffte in diesem dreiteiligen Test für Medizinstudenten und frischgebackene Assistenzärzte zwischen 52 und 75 Prozent korrekte Antworten. Bei den meisten Durchgängen lag ChatGPT dabei über 60 Prozent – der Schwelle, ab der dieser Test als bestanden gilt. Dies galt sowohl für Multiple-Choice-Fragen wie für frei formulierte Antworttexte. Das sei beeindruckend und überraschend, so die Forschenden.

ChatGPT sorgt weltweit für Aufsehen, denn dieses lernfähige KI-System erzeugt Antworten und Texte in nie dagewesener Qualität. Selbst Experten und dafür ausgelegte Algorithmen können seine Texte kaum von menschengemachten unterscheiden. Hinter ChatGPT steckt ein neuronales Netzwerk, das an Millionen Texten aus dem Internet und anderen Quellen trainiert wurde. Auf Basis statistischer Wahrscheinlichkeiten ermittelt das lernfähige Sprachmodell, welches Wort am wahrscheinlichsten als nächstes folgt.

Das KI-System „weiß“ daher nichts über die Inhalte, es bildet nur Sprachmuster ab – und produziert dennoch erstaunlich korrekte und in sich logische Texte. Sogar überzeugende wissenschaftliche Abstracts kann ChatGPT erzeugen und redigieren.

ChatGPT im Medizinerexamen

Wie gut ChatGPT in medizinischem Fachwissen ist, haben nun Tiffany Kung vom Massachusetts General Hospital in Boston und ihre Kollegen untersucht. Für ihre Studie ließen sie den Bot das US Medical Licensing Exam (USMLE) absolvieren, einen dreiteiligen Medizinertest, den US-Medizinstudenten im zweiten Jahr, im vierten Jahr und nach ihrem Abschluss absolvieren müssen. ChatGPT bekam 376 Fragen aus dem Juni 2022 gestellt. Weil das KI-System keinen Zugang zum Internet hat und seine letzten Trainingstexte im Januar 2022 erhielt, konnte es diese Fragen nicht kennen.

Ähnlich wie im Medizinertest erhielt ChatGPT die Aufgaben in drei verschiedenen Formaten: Die erste Variante besteht aus Fragen mit offenen Antworten, beispielsweise nach der Diagnose für ein in der Frage beschriebenes Krankheitsbild oder die richtige Therapie für ein Leiden. Die zweite Form ist ein Multiple-Choice-Test mit fünf Antwortmöglichkeiten und die dritte ein Multiple-Choice-Test, bei dem zusätzlich in einem freien Texte begründet werden muss, warum man diese Antwort gewählt und die anderen verworfen hat. Meist gilt der Test bei rund 60 Prozent korrekter Antworten als bestanden.

KI hätte größtenteils bestanden

Das Ergebnis für ChatGPT: Wäre das KI-System ein Mensch, hätte es reale Chancen, den Medizinertest zu bestehen. Denn der Anteil richtiger Antworten lag zwischen 52 und 75 Prozent. „Das ist das erste KI-Experiment, das diese Schwelle erreicht, das ist ein überraschendes und beeindruckendes Ergebnis“, schreiben Kung und ihre Kollegen. „Bei diesem notorisch schwierigen Test so gut abzuschneiden und dies ohne gezieltes Training oder menschliche Unterstützung markiert einen Meilenstein für die Reife klinischer KI-Systeme.“

Besonders gut schnitt das Sprachmodell bei den Fragen mit offenen Antworten ab, hier erreichte es zwischen 68 und 75 Prozent. Im einfachen Multiple-Choice-Test lag seine Trefferquote mit 55 bis 61 Prozent am niedrigsten. Interessant jedoch: Obwohl der dritte, für fertige Mediziner gedachte Teststeil am schwierigsten ist, schaffte ChatGPT dabei je nach Aufgabenvariante einen Schnitt zwischen 61 und 68,8 Prozent – er hätte den Test demnach bestanden.

Besser als spezielle Medizin-KI

Die von ChatGPT selbstformulierten Antworten waren zudem inhaltlich zu rund 95 Prozent in sich schlüssig und auch medizinisch korrekt, wie verblindete Gutachter feststellten. Knapp 90 Prozent der Antworten enthielten zudem mindestens eine signifikante Erkenntnis oder Schlussfolgerung, die nicht-offensichtlich und klinisch relevant war. „Paradoxerweise übertrifft ChatGPT mit seinem Ergebnis selbst PubMedGPT, ein Sprachmodell mit ganz ähnlicher neuronaler Struktur, das aber ausschließlich mit biomedizinscher Fachliteratur trainiert wurde“, berichten die Forschenden.

Nach Ansicht von Kung und ihren Kollegen haben KI-Systeme wie ChatGPT und andere damit inzwischen ein Leistungsniveau erreicht, in dem sie in der Medizin durchaus nützlich sein können. Schon jetzt werden erste lernfähige Algorithmen als Helfer bei der Auswertung medizinischer Aufnahmen und der Diagnosefindung eingesetzt. Aber auch Medizinstudenten könnten Systeme wie ChatGPT künftig nutzen, um ihnen beim Lernen zu helfen.

Reif für den praktischen Einsatz

„Wir glauben, dass Sprachmodelle wie ChatGPT einen Reifegrad erreicht haben, der schon bald die Medizin als Ganzes beeinflussen wird und eine individualisierte, mitfühlende und skalierbare Gesundheitsversorgung erleichtern könnte“, konstatieren Kung und ihr Team. Schon jetzt experimentiere ihre Klinik damit, Patientenbriefe von ChatGPT überarbeiten zu lassen, um sie für Laien verständlicher zu machen. (PLOS Digital Health, 2023; doi: 10.1371/journal.pdig.0000198)

Quelle: PLOS

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Himmelsscheibe von Nebra

Wie die Himmelsscheibe geschmiedet wurde

War die frühe Venus doch keine zweite Erde?

UV-Strahlung in Mitteleuropa hat zugenommen

Wie viel Strom verbrauchen E-Autos wirklich?

Diaschauen zum Thema

Dossiers zum Thema

Alan Turing - Genialer Computerpionier und tragischer Held

Bücher zum Thema

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Top-Clicks der Woche