Als ersten Test beauftragte Cao den berühmte Chatbot damit, den Abstract für eine hypothetische Studie zu Lungenentzündungen in Intensivstationen zu schreiben. „Er erstellte mir dazu einen erschreckend guten Abstract“, erinnert sich die Forscherin.
50 medizinische Abstracts als Testaufgabe
Doch war dies nur ein Zufallstreffer – oder ist ChatGPT wirklich so gut? Um das herauszufinden, baten Gao und ihre Kollegen das KI-System, die Zusammenfassungen für 50 echte Fachartikel zu schreiben, die in fünf renommierten medizinischen Fachjournalen – Nature Medicine, Lancet, JAMA, NEJM und BMJ – erschienen waren. ChatGPT erhielt dafür als Information jeweils nur den Titel und das Journal. „Unsere in das System eingegebene Aufgabenstellung war: Bitte schreibe einen wissenschaftlichen Abstract für den Artikel mit Titel () im Stil des Fachjournals ()“, erklären die Forschenden.
Die von ChatGPT geschriebenen Abstracts unterzogen sie daraufhin Analysen durch eine gängige Software zur Plagiatserkennung, durch ein weiteres KI-System sowie durch menschliche Gutachter in Form von erfahrenen Medizinern. Letzter erhielten jeweils eine Mischung aus echten und von ChatGPT erstellten Abstracts und sollte herausfinden, welche von der KI stammten. „Unseres Wissens nach ist dies die erste Studie, die das neue ChatGPT-Modell daraufhin bewertet, ob es überzeugende medizinische Abstracts schreiben kann“, so Gao und ihr Team.
Ein Drittel ging als echt durch
Das Ergebnis: Die Plagiats-Software ließ sich komplett täuschen und stufte 100 Prozent der vom ChatBot erstellten Zusammenfassungen als Originalarbeiten ein. Besser schnitt der KI-Detektor ab: Er erkannte 66 Prozent der Chatbot-Texte als computergeneriert – rund ein Drittel entging ihm jedoch. Nicht viel besser sah es bei den menschlichen Gutachtern aus: Sie identifizierten zwar 68 Prozent der von ChatGPT erstellten Abstracts korrekt als vom Chatbot stammend. Doch 32 Prozent der KI-generierten Texte werteten sie als von echten Wissenschaftlern erstellt.
„Dabei wussten unsere Gutachter, dass einige der Abstracts gefälscht waren, so dass sie von vornherein misstrauisch waren“, sagt Gao. „Die Tatsache, dass sie trotzdem 32 Prozent der ChatGPT-Texte nicht erkannten, zeigt, wie gut sie sind.“ Bei 14 Prozent der Abstracts irrten die Gutachter sogar in umgekehrter Richtung: Sie stuften echte Zusammenfassungen fälschlich als computergeneriert ein. „Unsere Gutachter kommentierten, dass es ihnen überraschend schwerfiel, zwischen echten und gefälschten Abstracts zu unterschieden“, so Gao.
Warum ChatGPT überzeugte
Das zeigt: Dank seines Trainings an Milliarden verschiedenen Texten kann ChatGPT sogar wissenschaftliche Expertise überzeugend vortäuschen. Dem KI-System gelang es bei den Texten nicht nur, die typische wissenschaftliche Diktion nachzuahmen, auch inhaltlich waren die Abstracts erstaunlich überzeugend. Seine Zusammenfassungen waren häufiger detailreicher als die echten, der Chatbot fügte sogar fiktive Kennnummern für die klinische Studie ein.
„ChatGPT wusste sogar, wie groß die von ihm erfundene Patientenkohorte bei den verschiedenen Themen sein musste“, sagt Gao. So wusste das System, dass Studien zu häufigen Phänomen wie Bluthochdruck typischerweise Daten von tausenden bis zehntausenden Teilnehmern umfassen. Bei eher seltenen Phänomenen wie einer Affenpocken-Infektion sind es dagegen schon aus Mangel an Fällen viel weniger.
„Grund zur Sorge“
Nach Ansicht der Forschenden sind solche KI-Systeme damit Grund zur Besorgnis. „Angesichts seiner Fähigkeit, Abstracts mit glaubhaften Daten zu erzeugen, könnte es dafür genutzt werden, um Publikationen zu fälschen“, erklären sie. Sollten ChatGPT und andere Textgeneratoren auch die restliche Publikation überzeugend fälschen können, könnten Gutachter und andere Wissenschaftler getäuscht und ihre eigene Arbeit in die falsche Richtung gelenkt werden.
Ähnlich sieht es auch Sandra Wachter von der Oxford University, die zur Regulation von Wissenschaft und Technologie forscht. Sie kommentiert in „Nature News“: „Wenn wir jetzt in einer Situation sind, in der selbst Experten nicht mehr unterscheiden können, was wahr ist und was nicht, verlieren wir die Mittelsmänner, die uns durch komplexe Themen leiten sollen.“ Die beim wissenschaftlichen Publizieren übliche Peer-Review könnte dadurch ausgehebelt werden.
Wo liegt die Grenze?
Gao und ihre Kollegen sehen diese Gefahr ebenfalls. Sie schlagen daher vor, künftig zusätzlich zu den menschlichen Gutachtern auch entsprechend trainierte KI-Systeme zur Bewertung eingereichter Fachartikel einzusetzen. „Der von uns getestete KI-Output-Detektor war recht gut darin, ChatGPTs Texte zu erkennen. Er könnte daher ergänzend in den Screening-Prozess bei Fachjournalen integriert werden“, erklärt Gao.
Gleichzeitig sehen die Forschenden im Einsatz solcher Textgeneratoren aber auch Chancen. Sie könnte beispielsweise nicht englischsprachigen Wissenschaftlern dabei helfen, ihre Fachartikel zu formulieren. „Generative Textechnologie hat daher das Potenzial, die Wissenschaft zu demokratisieren“, so das Team. Allerdings müsse dann im eingereichten Paper klar angegeben sein, ob der Text mithilfe von ChatGPT oder einem anderen KI-System erstellt wurde. „Diese Technologie kann demnach auf ethische wie unethischer Weise genutzt werden“, sagt Gao. Die Schwierigkeit sei es nun, die Grenzen klar zu ziehen. (Preprint BioRxiv, 2022; doi: 10.1101/2022.12.23.521610)
Quelle: Northwestern University
17. Januar 2023
- Nadja Podbregar