Informatik

Ist ChatGPT intelligent?

Leistungen und Grenzen der Sprachmodelle

Bei der Frage nach künstlicher Intelligenz und insbesondere Chatbots gilt oft der Turing-Test als Maß aller Dinge. Er geht auf den Computerpionier und Mathematiker Alan Turing zurück, der sich schon in den 1950er Jahren mit der Frage beschäftigte, wie man die Intelligenz eines digitalen Rechners bewerten kann. Für Turing war dabei nicht die Art und Weise entscheidend, mit der Gehirn oder Prozessor zu ihren Ergebnissen kommen, sondern allein das, was herauskommt. „Es interessiert uns nicht, dass das Gehirn die Konsistenz von kaltem Porridge hat, der Rechner aber nicht“, so Turing 1952 in einer Radiosendung.

Turing-Test
Der Turing-Test gilt als bestanden, wenn der menschliche Tester nicht erkennen kann, ob er mit einer KI oder einem Menschen kommuniziert. © Jesussanz/ Getty images

Der Computerionier schlug daher eine Art Imitationsspiel als Test vor: Kann ein Mensch in einem Dialog mit einem für ihn unsichtbaren Partner nicht unterscheiden, ob ihm ein Mensch oder ein Computerprogramm antwortet, dann muss das Programm als intelligent gelten. Turing prognostizierte, dass Computer es bis zum Jahr 2000 schaffen würden, mehr als 30 Prozent der Teilnehmenden bei einem solchen, fünf Minuten dauernden Test erfolgreich zu täuschen. Damit lag Turing jedoch falsch: Bis vor wenigen Jahren scheiterten alle KI-Systeme an diesem Test.

Würde ChatGPT den Turing-Test bestehen?

Doch mit der Entwicklung von GPT und anderen Großen Sprachmodelle hat sich dies geändert. Bei ChatGPT und Co fällt es uns Menschen zunehmend schwer, die Erzeugnisse dieser KI-Systeme von menschengemachten zu unterscheiden – sogar bei vermeintlich hochkomplexen wissenschaftlichen Themen, wie sich Anfang 2023 zeigte. Ein Team um Catherine Gao von der Northwestern University in den USA hatte ChatGPT die Aufgabe gestellt, Zusammenfassungen, sogenannte Abstracts, für medizinische Fachartikel zu verfassen. Die KI erhielt dafür als Information nur den Titel und das Journal, den Fachartikel kannte sie nicht, da diese nicht in ihren Trainingsdaten enthalten waren.

Die von ChatGPT generierten Abstracts waren so überzeugend, dass selbst erfahrenen Gutachter rund ein Drittel der GPT-Texte nicht als solche erkannten. „Dabei wussten unsere Gutachter, dass einige der Abstracts gefälscht waren, so dass sie von vornherein misstrauisch waren“, sagt Gao. Das KI-System ahmte nicht nur die wissenschaftliche Diktion nach, auch inhaltlich waren seine Abstracts erstaunlich überzeugend. Selbst Software, die speziell zur Erkennung von KI-generierten Texten entwickelt worden war, erkannte rund ein Drittel der ChatGPT-Texte nicht.

Andere Studien zeigen, dass ChatGPT auch in einigen akademischen Tests durchaus passabel abschneiden würde, darunter einem US-Juratest und dem US Medical Licensing Exam (USMLE), einen dreiteiligen Medizinertest, den US-Medizinstudenten im zweiten Jahr, im vierten Jahr und nach ihrem Abschluss absolvieren müssen. Bei den meisten Durchgängen dieses Tests lag ChatGPT bei über 60 Prozent – der Schwelle, ab der dieser Test als bestanden gilt.

Schreiben ohne echtes Wissen

Aber bedeutet dies, dass ChatGPT und Co wirklich intelligent sind? Nach der eingeschränkten Definition des Turing-Tests vielleicht, nicht aber im herkömmlichen Sinne. Denn diese KI-Systeme imitieren die menschliche Sprache und Kommunikation, ohne wirklich die Inhalte zu verstehen. „In der gleichen Weise wie Google unsere Anfragen ‚liest‘ und dann relevante Antworten liefert, schreibt auch GPT-3 einen Text ohne tieferes Verständnis der Inhalte“, erklären Luciano Floridi vom Oxford Internet Institute und Massimo Chiratti von IBM Italien. „GPT-3 produziert einen Text, der statistisch zu dem ihm gegeben Prompt passt.“

Chat-GPT „weiß“ daher nichts über die Inhalte, es bildet nur Sprachmuster ab. Das erklärt auch, warum das KI-System und sein Sprachmodell GPT-3 bzw. GPT-3.5 gerade bei Fragen des gesunden Menschenverstands und der Alltagsphysik manchmal schmählich versagt. „GPT-3 hat besondere Probleme bei Fragen des Typs: Wenn ich Käse in den Kühlschrank lege, schmilzt er dann?“, berichteten OpenAI-Forscher um Tom Brown 2018 in einem Fachartikel.

GPT
Das Sprachmodell GPT-3 schneidet in einigen sprachlichen Aufgaben deutlich schlechter ab als der Mensch, in anderen erreicht es aber unsere Leistungen. © hirun/ Getty images

Kontext-Verständnis und der Winograd-Test

Aber auch mit der menschlichen Sprache und ihren Eigenheiten haben selbst die fortgeschrittenen Sprachmodelle noch so ihre Schwierigkeiten. Dies zeigt sich unter anderem in sogenannten Winograd-Tests. Diese testen, ob Mensch und Maschine bei grammatikalisch uneindeutigen Bezügen dennoch den Sinn eines Satzes richtig verstehen. Ein Beispiel: „Die Ratsherren weigerten sich, den aggressiven Demonstranten eine Erlaubnis auszustellen, weil sie Gewalt propagierten“. Die Frage dazu lautet: Wer propagiert Gewalt?

Für Menschen ist aus dem Kontext klar ersichtlich, dass „die Demonstranten“ hier die richtige Antwort sein muss. Für eine KI, die gängige Sprachmuster auswertet, ist dies deutlich schwieriger, wie auch Forscher von OpenAI im Jahr 2018 bei Tests ihres Sprachmodells feststellten (arXiv:2005.14165): In anspruchsvolleren Winograd-Tests erzielte GPT-3 zwischen 70 und 77 Prozent korrekte Antworten, wie sie berichten. Der Mensch schafft bei diesen Tests im Schnitt 94 Prozent.

Leseverständnis eher mäßig

Je nach Aufgabentyp sehr unterschiedlich schneidet GPT-3 auch in der SuperGLUE-Benchmark ab, einem komplexen, auf verschiedenen Aufgabenformaten basierenden Text des Sprachverständnisses und Wissens. Dazu gehören Wortspiele und Teekesselchen-Aufgaben oder Wissensaufgaben wie diese: Mein Körper wirft einen Schatten auf dem Gras. Frage: Was ist die Ursache dafür? A: Die Sonne ging auf. B: Das Gras wurde geschnitten. Der SuperGLUE-Test umfasst aber auch zahlreiche Fragen, bei denen das Verständnis eines zuvor gegebenen Texts überprüft wird.

GPT-3 erreicht bei einigen dieser Tests, darunter den einfachen Wissensfragen und einigen Aufgaben zum Leseverständnis, gute bis mittlere Ergebnisse. Eher mäßig schneidet das KI-System dagegen bei Teekesselchen oder dem sogenannten Natural-Language-Inference-Test (NLI) ab. Bei diesem erhält die KI zwei Sätze und muss bewerten, ob der zweite Satz dem ersten widerspricht, ihn bestätigt oder neutral ist. In einer verschärften Version (ANLI) bekommt die KI einen Text und dazu eine irreführende Hypothese zum Inhalt und muss nun selbst eine korrekte Hypothese aufstellen.

Das Ergebnis: Selbst die Versionen von GPT-3, die bei der Aufgabenstellung mehrere richtig beantwortete Beispielaufgaben als Hilfestellung erhalten hatten, schafften bei diesen Tests nicht mehr als 40 Prozent richtiger Antworten. „Diese Ergebnisse deuteten darauf hin, dass NLI für Sprachmodelle noch immer sehr schwierig sind und dass sie gerade erst beginnen, hier Fortschritte zu zeigen“, erklären die OpenAI-Forscher. Sie führen dies auch darauf zurück, dass solche KI-Systeme bisher rein sprachbasiert sind und ihnen andere Erfahrungen über unsere Welt beispielsweise in Form von Videos oder physischen Interaktionen, fehlen.

Auf dem Weg zu echter künstlicher Intelligenz?

Was aber bedeutet dies für die Entwicklung der künstlichen Intelligenz? Kommen die Maschinenhirne unseren Fähigkeiten damit schon nahe – oder überholen sie bald sogar? Darüber gehen die Ansichten bisher weit auseinander. „Auch wenn die Systeme gelegentlich noch fehlerhafte Antworten geben oder Fragen nicht richtig verstehen – die technischen Erfolge, die hier erreicht wurden, sind phänomenal“, sagt KI-Forscher Volker Tresp von der Ludwig-Maximilians-Universität München. Seiner Ansicht nach hat die KI-Forschung mit Systemen wie GPT-3 oder GPT 3.5 einen wesentlichen Meilenstein auf dem Weg zu einer echten künstlichen Intelligenz erreicht.

Ganz anders sehen dies allerdings Floridi und Chiratti nach ihren Tests mit GPT-3: „Unsere Schlussfolgerung ist simpel: GPT-3 ist ein außergewöhnliches Stück Technologie – aber ungefähr so intelligent, bewusst, schlau, einsichtsvoll, perzeptiv oder sensibel wie eine alte Schreibmaschine“, schreiben sie. „Jede Interpretation von GPT-3 als Beginn einer allgemeinen Form der künstlichen Intelligenz ist nur uninformierte Science-Fiction.“

  1. zurück
  2. |
  3. 1
  4. |
  5. 2
  6. |
  7. 3
  8. |
  9. 4
  10. |
  11. 5
  12. |
  13. 6
  14. |
  15. weiter
Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

Inhalt des Dossiers

ChatGPT und Co - Chance oder Risiko?
Fähigkeiten, Funktionsweise und Folgen der neuen KI-Systeme

Durchbruch oder Hype?
Künstliche Intelligenz, ChatGPT und die Folgen

Wie funktionieren ChatGPT und Co?
Das Prinzip der generativen vortrainierten Transformer

Ist ChatGPT intelligent?
Leistungen und Grenzen der Sprachmodelle

Wie korrekt ist ChatGPT?
Nicht ohne Vorurteile und Fehlinformationen

Grauzone des Rechts
Das Problem von Copyright und Plagiaten

Diaschauen zum Thema

News zum Thema

keine News verknüpft

Dossiers zum Thema

Killerroboter - Autonome Waffensysteme – wenn Computer über Leben und Tod entscheiden

Alan Turing - Genialer Computerpionier und tragischer Held