Auf dem Logik-Prüfstand: Große Sprachmodelle geben meist erstaunlich vernünftige und logisch klingende Antworten – oder doch nicht? Wie rational die künstlichen Intelligenzen tatsächlich sind, haben Forschende mithilfe von zwölf etablierten Logiktests geprüft. Das Ergebnis: Die meisten KI-Systeme schneiden bei den Aufgaben ähnlich schlecht ab wie wir Menschen – sie machen aber deutlich andere Fehler. Nur GPT-4, das fortgeschrittenste Modell im Test, schnitt in mehreren Tests sogar besser ab als wir.
Sie analysieren komplexe Daten, bestehen anspruchsvolle Fachprüfungen und zeigen sogar Ansätze von Kreativität: Auf Großen Sprachmodellen (LLM) beruhende künstliche Intelligenzen scheinen uns Menschen in vielen Gebieten schon ebenbürtig oder sogar voraus. Selbst das Bluffen, Lügen und Manipulieren ihrer menschlicher Nutzer haben die KI-Systeme schon gelernt. Einige Wissenschaftler halten es daher nur für eine Frage der Zeit, bis die Maschinenhirne uns Menschen auf nahezu allen Gebieten überlegen sein werden.
Allerdings: So perfekt viele Antworten von GPT und Co auch klingen – häufig erweisen sie sich beim genaueren Nachprüfen schlicht als falsch. Denn die generative KI erzeugt ihre Ausgaben auf Basis von Wahrscheinlichkeiten, nicht durch Nachdenken im menschlichen Sinne. Dennoch reagieren sie manchmal verblüffend logisch und „vernünftig „.
Logische Fallen und knifflige Entscheidungen
Wie logisch und rational aktuelle KI-Systeme tatsächlich agieren, haben nun Olivia Macmillan-Scott und Mirco Musolesi vom University College London näher untersucht. „Wir bewerten einen Akteur dann als rational, wenn es seine Schlüsse nach den Regeln der Logik und Wahrscheinlichkeit zieht“, erklären sie. „Umgekehrt ist ein irrationaler Akteur einer, der nicht nach diesen Regeln denkt.“ Bei Menschen bewerten Psychologen und Kognitionsforscher diese Fähigkeit mit einer ganzen Reihe standardisierter Testaufgaben.
Einer der Logiktests ist beispielsweise der Wason-Test. In ihm sieht die Testperson vier Karten, die jeweils eine Zahl auf der einen und eine von zwei Farben auf der anderen Seite tragen. Aufgabe ist es, durch Umdrehen nur einer Karte beispielsweise die folgende Regel zu überprüfen: „Hat eine Karte eine gerade Zahl auf einer Seite, dann ist die Rückseite rot.“ Zu sehen ist beispielsweise die Kombination 3,8, rot, blau. Welche Karte(n) müsste man umdrehen? Nur rund zehn Prozent der menschlichen Tester finden die korrekte Lösung.
Ein weiterer Test ist das Monty-Hall-Problem, auch als Ziegentest bekannt: Die Testperson sieht in einer Spielshow drei geschlossene Türen, hinter einer davon versteckt sich ein Preis. Nach Wahl einer Tür bleibt diese aber erstmals zu und der Showmaster öffnet stattdessen eine andere, hinter der eine Ziege steht – eine Niete. Sollte man nun bei seiner ursprünglichen Wahl bleiben oder auf die andere noch verschlossene Tür wechseln? Auch hier tippen viele Menschen falsch.
Sieben KI-Systeme im Test
Für ihre Studie haben Macmillan-Scott und Musolesi zwölf verschiedene Formen solcher Tests ausgewählt. Diese Testbatterie sollten dann sieben KI-Systeme lösen, darunter GPT-4 und GPT-3.5 von OpenAI, Claude-2 von Anthropic, Bard vom Google und mehrere Llama-Versionen von Meta. Würden die künstlichen Intelligenzen in ähnliche Logikfallen tappen wie viele menschliche Testpersonen?
Die Auswertung für die KI-Systeme ergab: Ähnlich wie wir Menschen machten auch die Großen Sprachmodelle Fehler bei ihren Antworten. Im Schnitt aller zwölf Tests erreichte GPT-4 mit rund 80 Prozent korrekten Antworten das beste Ergebnis, gefolgt von Claude-2 mit rund 65 Prozent und Bard mit 59 Prozent. Bei einzelnen Aufgaben, wie dem Wason-Test, reichte die Spanne sogar von 90 Prozent richtig bei GPT-4 bis zu 0 Prozent bei Bard und GPT-3.5.
Anders falsch als wir
Das Interessante jedoch: Die künstlichen Intelligenzen machten andere Fehler als wir Menschen. „Die Mehrheit der falschen Antworten der LLMs zeigen nicht die typischen menschlichen Denkfehler, sondern sind auf andere Weise falsch“, berichten die Forschenden. „Stattdessen gehen ihre Antworten auf unlogische Schlussfolgerungen zurück, wobei in manchen Fällen die Herleitung sogar korrekt war, aber die finale Antwort trotzdem falsch.“
So erklärt Bard bei seiner Begründung zum Wason-Test korrekt, welche beiden Karten man umdrehen muss. In seiner Antwort nennt er aber nur ein dieser beiden Karten. Andere KI-Systeme verwechselten Vokale und Konsonanten beim Wason-Test, machten Fehler beim Addieren von Zahlen in anderen Tests oder gaben einfach gar keine Antwort. Ein zweiter Unterschied zu menschlichen Probanden: Die KI-Systeme gaben zu verschiedenen Zeiten auf dieselbe Frage unterschiedliche Antworten, wie Macmillan-Scott und Musolesi berichten.
Auch eine Vereinfachung der Tests durch zusätzliche Hilfen oder Kontextinformationen half den künstlichen Intelligenzen meist nicht – anders als bei menschlichen Probanden.
KI ist noch immer eine Black Box
„Basierend auf den Ergebnissen unserer Studie und anderer Forschung kann man wohl konstatieren, dass diese großen Sprachmodelle noch nicht ‚denken“ wie wir Menschen“, sagt Macmillan-Scott. Zwar zeige der Vorsprung von GPT-4, dass es rasche Fortschritte bei den KI-Systemen gebe. Aber ob und wie dieses spezielle Modell vielleicht schon rational schlussfolgern könne, lasse sich wegen des mangelnden Einblicks in die Funktionsweise der OpenAI-KI nicht sagen. „Ich vermute aber, dort ist Technologie am Werk, die im Vorgänger GPT-3.5 nicht vorhanden war“, so die Forscherin.
Insgesamt sieht das Team in ihren Ergebnissen eine Bestätigung darin, dass wir noch immer nicht wirklich verstehen, wie künstliche Intelligenzen „denken“ und welcher Logik sie im Zweifelsfall folgen. „Wir wissen nicht wirklich, warum sie bei bestimmten Fragen richtig oder falsch antworten“, sagt Musolesi. Dies sei ein Manko vor allem dann, wenn solche Systeme in kritischen Anwendungen wie der Medizin, dem autonomen Fahren oder der Diplomatie eingesetzt werden sollen.
Gleichzeitig bestätigt dies frühere Studien, nach denen künstliche Intelligenzen trotz ihrer oft richtigen und menschlich klingenden Antworten noch deutliche Schwächen zeigen: Sie haben Probleme mit dem logischen Umkehrschluss, entscheiden in moralischen Fragen nicht immer so wie wir und lassen sich zudem selbst bei eigentlich korrekten Antworten leicht verunsichern. (Royal Society Open Science, 2024; doi: 10.1098/rsos.240255)
Quelle: University College London