Planlose KI? Auch wenn KI-Modelle uns scheinbar souverän den Weg zeigen können oder Aufgaben lösen – ihnen fehlt ein entscheidendes Element: Die künstlichen Intelligenzen bilden kein korrektes Abbild unserer Welt und ihrer impliziten Regeln, wie nun Tests enthüllen. Die KI-Systeme scheitern dadurch beispielsweise beim Routenplanen an Baustellen oder Umleitungen. Auch in Logiktests oder Strategiespielen zeigen sich diese Schwächen. Das birgt Risiken im Einsatz von GPT, Claude, Llama und Co.
Der Fortschritt der künstlichen Intelligenz ist rasant. Inzwischen können die generativen KI-Modelle nahezu perfekte Videos und Bilder erstellen, Forschungsaufgaben lösen oder wie NotebookLM täuschend echte Podcasts aus beliebigen Dokumenten erzeugen. Sie bestehen den Turing-Test und sind uns in vielen Aufgaben schon überlegen. Wenn es ihren Zielen dient, können die KI-Systeme sogar absichtlich lügen. Das Verblüffende daran: All diese Fähigkeiten entwickeln GPT, Llama, Claude, Sora und Co durch Auswertung von Wahrscheinlichkeiten in den Trainingsdaten.
Doch was bedeutet für die „Denkweise“ der KI? Bildet sie durch ihr Training auch eine kohärente Sicht der Welt und ihrer Regeln? „Die Frage, ob Große Sprachmodelle (LLM) solche Modelle der Welt bilden, ist sehr wichtig, wenn wir diese Techniken beispielsweise in der Wissenschaft einsetzen möchten“, erklärt Seniorautor Ashesh Rambachan vom Massachusetts Institute of Technology (MIT). Auch bei KI-Aufgaben, von denen Leben abhängen können, ist es essenziell, dass LLMs implizite Regeln und Gesetzmäßigkeiten begreifen – auch ohne, dass man sie ihnen explizit beibringt.
Routen durch New York als Testfall
Ob gängige KI-Systeme eine solche Weltsicht entwickeln, haben nun Rambachan und sein Team getestet. Dafür wählten sie Aufgaben aus der Klasse der sogenannten Deterministischen endlichen Automaten (DFA). Dazu gehören beispielsweise die Routenplanung, Spiele wie „Vier Gewinnt“ oder bestimmte Logikrätsel. Typisch dafür ist, dass man eine Reihe von aufeinanderfolgenden Zuständen durchlaufen muss, um die Lösung zu erhalten – beispielsweise das richtige Abbiegen an Kreuzungen beim Navigieren.
Im ersten Test wurden zwei Version von GPT mit den Routendaten von Taxifahrten durch New York trainiert – im Prinzip den Anweisungen, die ein Navi bei solchen Fahrten geben würde. Dann sollte die KI selbst als Routenplaner agieren und den Weg zu verschiedenen Zielen in Manhattan angeben. Wie erwartet, schnitt die künstliche Intelligenz sehr gut ab: „Das Transformer-Modell gab in fast 100-Prozent der Kreuzungen die richtige Anweisung und schien sogar die aktuelle Position zu kennen“, berichten die Forscher.
Unmögliches Straßennetz
Doch das änderte sich, als das Team Baustellen, Straßenblockaden und andere Veränderungen einbaute. „Ich war überrascht, wie schnell die Leistung in den Keller ging, sobald wir einen Umweg hinzufügten“, berichtet Erstautor Keyon Vafa von der Harvard University. „Wenn wir nur ein Prozent der Straßen blockierten, sank die Quote der korrekten Zielführungen von fast 100 auf nur noch 67 Prozent.“ Die künstliche Intelligenz „verirrte“ sich in den Straßen von New York.
Der Grund dafür zeigte sich, als die Forscher sich die von der KI im Verlauf des Trainings und der Aufgaben angelegten „mental Maps“ anschauten: „Die resultierenden Karten zeigen wenig Ähnlichkeit mit den echten Straßen von Manhattan. Sie enthalten Straßen mit unmöglicher Orientierung und nicht existente Verbindungen in ‚Luftlinie'“, berichtet das Team. „Das enthüllt, dass die zugrundeliegenden Weltmodelle dieser künstlichen Intelligenz nicht kohärent sind.“
Scheitern an impliziten Gesetzmäßigkeiten
Diese fehlende oder falsche Weltsicht der KI ist jedoch nicht nur für die Navigation problematisch: Auch bei Tests mit Strategiespielen wie „Reversi“ und „Vier Gewinnt“ sowie Logikrätseln zeigt sich fehlende Einsicht in die dahinterstehenden Prinzipien. So konnten die anhand realer Spielzüge trainierte KI-Modelle GPT-4 und Llama zwar die Spiele gewinnen. Sie erkannten aber beispielsweise nicht, ob sie in zwei Durchgängen identische Spielzustände erhielten oder dass verschiedene Eröffnungen letztlich zum gleichen Ergebnis führen können.
Ähnlich lief es beim Logiktest, in dem anhand einer Sprachaufgabe die Sitzreihenfolge von drei Leuten auf einer Bank ermittelt werden sollte. Wurde die Aufgabe leicht anders formuliert, erkannte die künstliche Intelligenz nicht mehr, dass es im Prinzip die gleiche Aufgabe war. „Kein KI-Modell erreicht dabei mehr als 40 Prozent“, berichten Vafa und seine Kollegen. Auch hier fehlte den KI-Systemen ein übergeordnetes Verständnis, eine kohärente Weltsicht.
Schwachstelle der KI-Modelle – noch
Nach Ansicht der Forscher bestätigt dies eine wichtige Schwachstelle der künstlichen Intelligenzen: Selbst wenn sie verblüffende Leistungen erbringen und komplexe Aufgaben souverän meistern: Noch reichen ihre Fähigkeiten nicht aus, um sich aus ihren Trainingsdaten und Erfahrungen immer ein korrektes Abbild der Welt und ihrer Gesetzmäßigkeiten zu machen. Wird ihnen dies nicht explizit beigebracht, können sie dadurch an unerwarteter Stelle scheitern.
„Wir sehen, wie diese KI-Modelle beeindruckende Dinge tun, und denken daher, sie müssen das Prinzip dahinter verstanden haben“, sagt Rambachan. Aber bisher sei dies nicht immer der Fall. Das könnte dann gefährlich werden, wenn eine für essenzielle Aufgaben eingesetzte künstliche Intelligenz in einem Kontext bestens funktioniert, dann aber unerwartet scheitert. „Es wäre daher immens wertvoll, wenn wir generative KI-Modelle entwickeln, die auch die zugrundeliegende Logik selbstständig erfassen können“, so der Forscher. (Preprint arXiv, 2024; doi: 10.48550/arXiv.2406.03689)
Quelle: Massachusetts Institute of Technology (MIT)