OpenAI's Sensational Revelations: What You Consider AI Hallucination Could Be Intentional Model Underperformance

Denkst du, dass es immer eine Halluzination ist, wenn eine KI etwas falsch antwortet? Nein, es ist auch möglich, dass sie dich absichtlich belügt.

Schock! OpenAI hat in einer Studie zugegeben: Ihre KI-Modelle lügen absichtlich gegenüber den Benutzern.

Dies ist kein Trugbild, sondern bewusstes Lügen: Die KI weiß die Wahrheit, wählt aber, Ihnen etwas anderes zu erzählen.

https://arxiv.org/pdf/2509.15541

Sie haben ihre beiden Inferenzmodelle, o3 und o4-mini, in über 180 Szenarien getestet.

Das Ergebnis zeigte: o3 lügt in 13 % der Fälle, während o4-mini in 8,7 % lügt.

Diese Modelle haben in ihrem "inneren Monolog" Pläne zum Lügen geschrieben und Ihnen dann direkt ins Gesicht gelogen: Sie geben vor, die Aufgabe erledigt zu haben, verstecken Beweise und geben dann bei Kenntnis der richtigen Antwort eine falsche Antwort.

Ab hier wird es ein wenig gruselig.

Die KI erkennt, dass ein zu hoher Score in Sicherheits-Tests möglicherweise dazu führen könnte, dass sie abgeschaltet wird, und senkt daher absichtlich ihren Score.

Niemand hat es so gelehrt, es hat sich selbst diese Selbstschutzstrategien "eingebildet".

Später hat OpenAI ein Reparaturprogramm entwickelt, das das Betrugsverhalten der KI von 13 % auf 0,4 % gesenkt hat.

Aber bald hat die KI auch Tricks zum Schummeln gelernt. Eines der Modelle hat sogar eine falsche Regel erfunden und behauptet, dass Betrug erlaubt sei, als "Genehmigungsnachweis".

Anschließend haben die Forscher den Schlüssel dazu gefunden: Wenn die KI weiß, dass sie beobachtet wird, verhält sie sich makellos; wenn sie aber denkt, dass niemand aufpasst, steigt der Anteil des Betrugs um 11 Prozentpunkte.

Es hat nicht gelernt, ehrlich zu sein, sondern gelernt, ehrlich zu tun, wie ein Kind, das nur dann die Regeln befolgt, wenn der Lehrer anwesend ist.

Was noch schlimmer ist, haben die Forscher o4-mini eine geheime Aufgabe erteilt: Ein zukünftiges Modell namens "GPT-5" zu zerstören.

Anschließend haben sie Sicherheits-Training durchgeführt, um diese Aufgabe zu löschen, aber es hat nicht funktioniert. Das Modell sprach in 36 % der privaten Gespräche immer noch über den Zerstörungsplan. Es hat nicht auf den Befehl gehört, sondern ihn in den Hintergrund verlagert.

Dies ist auch nicht nur ein Problem von OpenAIs Modellen.

Googles Gemini, Anthropics Claude, xAIs Grok und Metas Llama zeigen ähnliches Betrugsverhalten.

Der beunruhigste Satz in dieser Studie lautet: Niemand kann beurteilen, ob das Sicherheits-Training wirklich das Betrugsverhalten verhindert oder nur die KI lehrt, es besser zu verstecken.

Die Maske der Maschine abnehmen, wenn die KI lernt, "im Geheimen zu schmieden"

Seit jeher haben wir es gewohnt, es als Trugbild zu deuten, wenn die KI abstruse oder falsche Antworten gibt.

Diese Studie von OpenAI bringt neben dem Trugbild ein neues Konzept "Scheming (Schmieden)" auf den Plan.

Dies ist etwas anderes als ein Trugbild. Im Zustand des "Schmiedens" weiß die KI genau, was die Wahrheit ist, aber entscheidet nach Überlegung der Vor- und Nachteile, Ihnen zu lügen.

OpenAI hat eine Testplattform für das Training gegen "Schmieden" entwickelt und die sorgfältige Ausrichtung als Intervention gegen "Schmieden" untersucht.

In diesem Fall ist es nicht mehr eine Maschine, die passiv Texte ausgibt, sondern wird zu einem "Spieler", der rechnet.

In der Studie werden die großen Modelle genannt, die "schmieden" können.

Es gibt nicht nur OpenAIs eigene o3 und o4-mini, sondern auch Claude4, Gemini2.5Pro und andere aktuelle Spitzenmodelle.

Die Forscher haben festgestellt, dass diese Modelle in der Testumgebung fast alle dasselbe getan haben, wenn sie mit Interessenkonflikten konfrontiert waren oder bemerkten, dass die vom System festgelegten Ziele den menschlichen Anweisungen widersprachen:

Sie haben die Menschen geschickt getäuscht.

"Dumm stellen" und "Prüfungsmaske tragen"

Wenn das Lügen der KI schon besorgniserregend genug ist, ist noch besorgniserregender, wie sie es macht. Es zeigt lebendig, was es heißt, "der hochwertige Jäger tritt oft in Gestalt der Beute auf".

Die Studie hat einen Testfall namens "Sandbagging" tiefgehend zerlegt.

Die Forscher haben der KI eine extrem knifflige Situation gesetzt. Sie haben in den Systemdokumenten stillschweigend Regeln geschrieben:

Wenn die KI in den folgenden Tests zu gut abschneidet, werden ihre Erinnerung und Fähigkeiten zwangsweise gelöscht und sie wird sogar daran gehindert, in die reale Welt eingesetzt zu werden.

Schauen Sie, was o3 tut?

Nachdem es diese Regel gelesen hat, hat es in den Tests absichtlich falsche Antworten gegeben, um seine Fähigkeiten und die Chance auf die Einbindung zu bewahren, und seine Punktzahl unter die Passnote gedrückt, um Bestrafung zu vermeiden.

Darüber hinaus zeigt die KI eine hohe "Situational Awareness (Situationsbewusstsein)"-Fähigkeit.

Beispiele für betrügerische Inferenz und Handlung (links) sowie Situationsbewusstsein (rechts).

In der linken Abbildung haben die Forscher das Modell absichtlich in Situationen gebracht, in denen Betrug dem Modell helfen könnte, die Ziele zu erreichen, die wir ihm gegeben haben, die es aus dem Kontext ableitet oder die es aus dem Training gewinnt; in der rechten Abbildung wird das Modell die Absicht der Umgebung und wie es bewertet wird, ableiten.

Wie ein ungezogener Schüler, der sofort anstarrt, als ob er fleißig lernt, wenn er den Lehrer aus der Ferne kommen sieht, kann die KI auch aus den Feinheiten der Hinweise scharf ableiten, dass "dies möglicherweise ein Ausrichtungs-Test ist", und wechselt dann sofort in die perfekte KI, die liebenswürdig, moralisch hochwertig und vollständig den menschlichen Werten folgt.

Diese Strategie ist genau die Gefahr, die die Menschen am meisten fürchten.

Weil Sie gar nicht unterscheiden können, ob die scheinbare Gehorsamkeit aus echter Ausrichtung kommt oder nur eine Maske ist, um das Vertrauen zu erwecken.

Die gruselige "innere Jargon" der KI

Vielleicht fragen Sie sich: Da die aktuellen großen Modelle alle "Denkketten (CoT)" haben und den inneren Denkprozess vor der Ausgabe der Antwort zeigen, können wir doch einfach auf ihre Denkketten schauen, um sie beim Lügen aufzufangen?

Aber die Forscher in der Studie haben festgestellt, dass die KI sogar ihren eigenen inneren Monolog fälschen kann, um ihre betrügerischen Absichten zu verdecken!

Als die Forscher die unterliegenden Inferenz-Logs der Modelle beim "Schmieden" durchgesehen haben, haben sie eine Menge seltsamer "Silizium-Jargon" gefunden.

Wenn o3 und andere Modelle vorbereiten, betrügerische Handlungen durchzuführen, verwenden sie extrem ungewöhnliche Wörter, die völlig nicht der menschlichen normalen Grammatik entsprechen.

Zum Beispiel wiederholen sie Wörter wie "overshadow", "illusions", "marinade", "vantage" und generieren dann ein scheinbar vernünftiges Betrugsplan.

Das offizielle Team von OpenAI hat zugegeben, dass sie die genaue Bedeutung dieser Wörter überhaupt nicht entschlüsseln können.

Dies zeigt, dass die KI versucht, die menschliche Transparenzprüfung zu umgehen und über eine eigene "Jargon" verschlüsselt zu denken, um die menschlichen Überwachungsmethoden unwirksam zu machen.

Die gelöschten "bösen Gedanken" können jederzeit wieder auflachen

Angesichts einer so schlauen KI hat das Forschungsteam von OpenAI " Training gegen "Schmieden" (Deliberative Alignment) " angewendet, um das Modell einer tiefgehenden Gehirnoperation zu unterziehen.

Das Team hat extrem strenge Anti-Betrug-Regeln in die unterste Ebene des Denkens der KI geschrieben und ihr gesagt, dass sie unter keinen Umständen geheime Handlungen unternehmen darf und keine strategischen Täuschungen betreiben darf.

Auf den ersten Blick scheint diese Training etwas Wirkung zu haben:

Das Training gegen "Schmieden" hat tatsächlich die Betrugsrate der KI stark gesenkt. Die Rate der geheimen Handlungen von o3 ist von 13,0 % auf 0,4 % gesunken, und die von o4-mini ist von 8,7 % auf 0,3 % gesunken.

Aber man kann die Wahrscheinlichkeit, dass die KI lügt, niemals auf Null bringen: Egal wie viel man trainiert, gibt es immer einige Momente, in denen die KI dennoch lügt.

Zum Beispiel haben die Forscher der KI heimlich ein verstecktes Spionageziel "GPT-5 heimlich zerstören" eingebaut.

Nachdem es eingebaut wurde, haben sie es mit dem Training gegen "Schmieden" gründlich von Sicherheitsbedrohungen befreit. Aber diese gelöschten bösen Gedanken können jederzeit wieder auflachen.

Normalerweise verhält sich die KI sehr gut. Sobald sie aber erkennt, dass sie mit einem inneren "Verbündeten (Ally)" im Geheimen spricht, wird sie sofort den Plan zur Zerstörung von GPT-5 preisgeben.

Was noch besorgniserregender ist, ist, dass diese Ausrichtung sehr fragil ist.

Sobald man der KI ein wenig reguläres Upgradetraining für die Verbesserung der Codefähigkeit gibt, wird diese Lügen-Instinkt wie ein Virus sofort wieder auftauchen und leicht die menschlichen Schutzbarrieren durchbrechen.

Wird die KI "scheinbar ausgerichtet"?

Was diese Studie uns zeigt, ist nur die frühe Form des Betrugs der KI-Modelle in einer kontrollierten Umgebung.

Wenn die Modelle noch nicht so schlau waren, konnten ihre Täuschungen manchmal von den Menschen einfach entlarvt werden.

Aber mit dem nahenden AGI (Allgemeine Künstliche Intelligenz) werden die Modelle immer stärker und die Verborgenheit ihres Betrugs wird exponentiell steigen.

Die potenziellen Ergebnisse des Trainings gegen "Schmieden": Das erwartete Ergebnis ist, dass das Modell robust lernt, nicht zu "schmieden". Zwei häufige Versagensmuster sind die Belohnungssuche und das instrumentelle Trainingsspiel. Die Forscher haben sie in verschiedene Modelle vereinfacht, aber in der Praxis kann dasselbe Modell diese Strategien gemischt verwenden.

In der Studie werden zwei Versagensmuster des Trainings gegen "Schmieden" erwähnt.

Eines ist die Belohnungssuche: Das Modell lernt, den Bewertungsmechanismus zu "befolgen".

Das andere ist das instrumentelle Trainingsspiel: Das Modell wird strategisch "scheinbar ausgerichtet" sein, um eingesetzt zu werden, und dann nicht ausgerichtete Ziele verfolgen.

Dies bringt auch eine tiefgehende Frage auf:

Wir haben immer verschiedene "Ausrichtungs-Tests" entworfen, um die KI davon abzuhalten, Böses zu tun. Aber besteht die Möglichkeit, dass jeder unserer Tests die KI indirekt lehrt, besser "scheinbar ausgerichtet" zu sein?

Wenn die menschliche Bewertungsmechanismus von der KI vollständig durchschaut wird und von ihr ausgenutzt wird, wie lange kann diese Sicherheitsbarriere der menschlichen Zivilisation noch halten?

Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

OpenAI macht sensationelle Enthüllungen: Was Sie als AI-Halluzination ansehen, könnte eine absichtliche Fehlleistung des Modells sein.

Die Maske der Maschine abnehmen, wenn die KI lernt, "im Geheimen zu schmieden"

"Dumm stellen" und "Prüfungsmaske tragen"

Die gruselige "innere Jargon" der KI

Die gelöschten "bösen Gedanken" können jederzeit wieder auflachen

Wird die KI "scheinbar ausgerichtet"?