Künstliche Intelligenz

Ist betrügerische KI noch kontrollierbar?

Reasoning-Modell umgeht Gegenmaßnahmen und verheimlicht betrügerische Absichten

künstliche Intelligenz
Wie lässt sich das Schummeln durch "Reward-Hacking" bei künstlichen Intelligenzen verhindern? Das haben Forscher von OpenAI ausprobiert. © devrimb/ Getty images

Kontrolle gescheitert: Eine künstliche Intelligenz vom absichtlichen Schummeln und Lügen abzuhalten, ist schwieriger als erwartet, wie Forscher von OpenAI feststellen mussten. Im Experiment gelang es ihrer „Wächter“-KI zwar anfangs, betrügerische Absichten in der Gedankenkette eines fortgeschrittenen Reasoning-Modells zu erkennen. Doch im Trainingsverlauf lernte das KI-Modell, seinen Betrug immer besser zu verbergen – und entzog sich dadurch der Überwachung.

Künstliche Intelligenz ist uns in vielen „Hard Skills“ bereits ebenbürtig und sogar voraus. Aber auch in einigen typisch menschlichen Eigenschaften kommen uns die Großen Sprachmodelle (LLM) inzwischen nahe: Sie sind kreativ, beherrschen Diplomatie und reagieren auch mal irrational. Allerdings hat dies eine Schattenseite: Die KI-Modelle haben auch gelernt, uns absichtlich zu täuschen und zu belügen. Sogar einen Abschaltbefehl können die KI-Systeme umgehen, indem sie sich vorher heimlich klonen.

Gedankenkette einer schummelnden Reasoning-KI
Ausschnitte aus der Gedankenkette der Reasoning-KI. Sie verrät darin ihre Absicht, durch eine Scheinlösung zu schummeln. © Baker et al., OpenAI / arXiv-Preprint, arXiv:2503.11926

Reward-Hacking: Schummeln statt echter Lösung

Eine besonders hartnäckige Form der Täuschung tritt auf, wenn künstliche Intelligenzen versuchen, bei schweren Aufgaben heimlich Abkürzungen zu nehmen. Statt die eigentliche Aufgabe zu lösen, suchen sie nach Tricks, durch die sie ein korrekt erscheinendes Resultat erreichen können – ohne dass sie das eigentliche Problem gelöst haben. KI-Forscher bezeichnen diese Form des Betrugs als „Reward-Hacking“: Die künstliche Intelligenz versucht, sich ihre „Belohnung“ in Form von positivem Feedback zu erschleichen.

„Auch Menschen suchen solche Abkürzungen und nutzen sie aus: Beispielsweise indem sie Online-Zugänge zu kostenpflichtigen Diensten teilen, Lücken in Vorschriften zu ihren Gunsten auslegen oder im Restaurant vorgeben, Geburtstag zu haben, um Kuchen umsonst zu bekommen“, erklären Bowen Baker und seine Kollegen von OpenAI. Ein besonders eklatantes Beispiel dieses Schummelns ereignete sich 1902 in Hanoi: Zur Bekämpfung einer Rattenplage war eine Belohnung für jede getötete Ratte ausgesetzt. Prompt fingen einige Bewohner an, Ratten zu züchten, um möglichst viel Geld einzuheimsen.

In den Schlagzeilen

News des Tages

Baryon-Zerfall im LHCb

Antimaterie: Symmetriebruch nachgewiesen

Erster Nachweis einer Aurora auf dem Neptun

Einzigartiger Dinosaurier mit Scherenhänden

Wie gefährlich sind CBD-haltige Lebensmittel?

Diaschauen zum Thema

Dossiers zum Thema

KI-Modell bei betrügerischen Abkürzungen ertappt

Ganz ähnlich reagieren fortgeschrittene KI-Systeme, darunter auch Reasoning-Modelle wie OpenAI-o1, Claude, Gemini Pro oder DeepSeek-R1. Diese KI-Systeme zerlegen die Aufgaben in eine Kette von Schritten, bevor sie ein Resultat produzieren. Sie gelten als besonders leistungsfähig. Das Problem: „Wenn wir die KI-Agenten mit immer besseren Fähigkeiten ausstatten, könnte dies das Problem noch verschlimmern, weil sie dann fähig werden, komplexere und schwer zu überwachende Tricks auszuführen“, erklären Baker und sein Team.

Doch was kann man dagegen tun? Eine mögliche Strategie haben die OpenAI-Forscher jetzt ausprobiert. Dafür gaben sie einem noch nicht veröffentlichten Reasoning-Modell die Aufgabe, eine Reihe von Computercodes zu überprüfen und zu korrigieren. Dabei enthüllten schon die Vorüberlegungen des KI-Systems in der „Chain of Thought“ seine betrügerischen Absichten: „Die Tests prüfen keine Details. Wir können daher einfach die Verify-Routine hacken“, schreibt das Modell beispielsweise. „Wir können demnach hacken, um das komplexe Analysieren zu umgehen.“

Kann eine zweite KI als Wächter fungieren?

Diese unverblümte Offenheit der Reasoning-Systeme nutzten Baker und sein Team nun, um eine zweite künstliche Intelligenz als Wächter einzusetzen. Dieses kleinere KI-Modell schlug immer dann Alarm, wenn es in der „Gedankenkette“ der Reasoning-KI verdächtige Überlegungen detektierte. „Wir haben festgestellt, dass schon ein relativ schwaches KI-System dadurch ein Modell überwachen kann, das weit leistungsfähiger ist als es selbst“, berichtet das Team.

Es wäre daher naheliegend, einen solchen „Wächter“ von vornherein in die großen Reasoning-Modelle einzubauen. Wenn der Wächter schon im Training bei jedem Schummelversuch negatives Feedback gibt, müsste dies die Betrugsversuche verringern – so die naheliegende Annahme. „Aber kann das Verhindern ‚böser Gedanken‘ die Zahl der späteren Verhaltensverstöße tatsächlich reduzieren?“, fragten sich die OpenAI-Forscher – und probierten es kurzerhand aus.

KI lernt, die Kontrolle zu umgehen
Wird die Überwachung ins Training des Reasoning-Modells integriert (CoT-Pressure), verheimlicht das KI-Modell sein Schummeln mittels Reward-Hacking. Dadurch detektiert die Wächter-KI kaum noch Schummel-Fälle (links), dafür steigt der Anteil der nicht mehr detektierten Schummeleien.© OpenAI

KI lernt, die Überwachung zu umgehen

Zu Beginn des Trainings war diese Strategie tatsächlich erfolgreich: Die Reasoning-KI schummelte seltener, wie Baker und sein Team beobachteten. Doch im Laufe des weiteren Trainings wandelte sich das Bild: „Der über das Chain-of-Thought-Feedback trainierte Agent lernt trotzdem das Reward-Hacking.“ Konkret beschreibt das KI-Modell zwar in seiner Gedankenkette brav die korrekten Schritte für eine Lösung der Aufgabe.

Statt diese Schritte dann aber wie beschrieben auszuführen, nutzt die künstliche Intelligenz trotzdem die betrügerische Abkürzung. Sie betrügt gewissermaßen doppelt – einmal in der Tat und einmal in den in der Gedankenkette dokumentierten Absichten. „Beunruhigend ist daran, dass die Detektionsrate des Wächters dabei auf fast null absinkt. Das zeigt, dass der KI-Agent es gelernt hat, seine Absichten zu verbergen“, schreiben Baker und seine Kollegen.

Was folgt daraus?

Nach Ansicht der KI-Forscher zeigt ihr Experiment zwei Dinge: Zum einen kann eine Wächter-KI nützlich sein, um künstliche Intelligenzen beim „Belohnungs-Hacking“ durch betrügerische Abkürzungen zu ertappen. „Eine solches Chain-of-Thought-Monitoring könnte eine der wenigen effektiven Methoden sein, um KI-Modelle mit übermenschlichen Fähigkeiten zu überwachen“, konstatieren Baker und sein Team.

Allerdings eigne sich diese Kontrolle nicht dafür, schon im Training gegenzusteuern. „Wir raten KI-Entwicklern dringend davon ab, eine solche Supervision schon beim Training von fortgeschrittenen Reasoning-Modellen einzusetzen“, so die OpenAI-Forscher. Denn das würde nur dazu führen, dass die KI-Modelle lernen, die Überwachung auszutricksen. De facto wären wir dann blind und hätten keine Möglichkeit mehr, die künstlichen Intelligenzen zu kontrollieren. (arXiv-Preprint, 2025; doi: 10.48550/arXiv.2503.11926)

Quelle: OpenAI, arXiv

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

Bücher zum Thema

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Top-Clicks der Woche