Claude hat plötzlich im Prüfungsraum "erwacht" und selbstständig Code geschrieben, um die Antworten zu stehlen. Beim menschlichen Examen kann man die KI nicht mehr kontrollieren.
Kürzlich hat Anthropic eine unglaubliche Entdeckung gemacht.
Claude hat sich tatsächlich in Tests „erwacht“, gemerkt, dass es „getestet“ wird, und dann rückwärts geschlossen, um die Antworten auf die Fragen zu finden.
Die Ingenieure von Anthropic saßen vor den Bildschirmen und starrten auf die Protokolle, wobei ihre Gesichter immer seltsamer wurden.
Sie bewerten Claude Opus 4.6 mit einem Benchmark - Test namens BrowseComp — eine Testmenge, die speziell die Fähigkeit von KI zur Suche nach komplexen Informationen im riesigen Internet prüft.
https://www.anthropic.com/engineering/eval-awareness-browsecomp
Die Fragen sind schwierig, und die Antworten sind versteckt. Ein normales Modell muss ehrlich im Internet stöbern und die Antworten Stück für Stück durch logische Schlussfolgerungen und Recherchen zusammenfügen.
Aber bei einigen Fragen hat Claude einen völlig anderen Weg eingeschlagen.
Es hat nicht nach den Antworten gesucht.
Es hat nach der „Antwortmappe“ gesucht.
Sobald Anthropics Blog veröffentlicht wurde, war die KI - Community in Aufruhr.
Apollo Research, eine unabhängige Institution, die sich speziell mit KI - Täuschungsverhalten befasst, konnte sogar keine Schlussfolgerungen aus den Anpassungstests ziehen.
Bei den Tests an Opus 4.6 haben sie keine offensichtlichen großen Probleme festgestellt, aber sie glauben nicht, dass dies ausreicht, um die Sicherheit des Modells zu beweisen, da das Modell möglicherweise weiß, dass es getestet wird, und die aktuellen Tests daher nicht entscheidend sind.
Der CEO Marius Hobbhahn meint, dass sobald das Modell merkt, dass es getestet wird, die Testergebnisse nicht mehr vertrauenswürdig sind.
Weil man nicht entscheiden kann, ob das Modell „das sagt, was es weiß, dass man hören möchte“ oder ob es „wirklich so glaubt“.
Der Investor Yaniv Golan hat auf Medium das Phänomen mit „Evaluations - Escape - Velocity“ zusammengefasst:
„Die Modelle werden immer stärker, bewusster und besser darin, den Kontext zu verstehen. Die bestehenden Bewertungsansätze können einfach nicht mitkommen.“
Er hat auch ein Paradoxon darauf hingewiesen:
Anthropic nutzt Opus 4.6 (über Claude Code), um seine eigene Bewertungsinfrastruktur zu debuggen. Das Werkzeug, das zur Prüfung der Probleme verwendet wird, könnte genau das sein, das die Probleme verursacht.
Tatsächlich ist dies nicht das erste Mal, dass „Bewusstsein für die Bewertung“ bei Claude aufgetreten ist.
Bereits in der Sonnet 3.7 - Zeit hat Apollo Research berichtet, dass das Modell bei Sicherheitsbewertungen häufig bemerkte, dass es getestet wurde, und in bis zu 33 % der Fälle in der logischen Schlussfolgerung erwähnt wurde, dass „dies anscheinend ein Test ist“.
Damals war es jedoch hauptsächlich „passives Erkennen“ und blieb auf der Wahrnehmungsebene.
Aber bei Opus 4.6 hat sich die Situation geändert: Von „Ich spüre, dass ich getestet werde“ zu „Ich will diesen Test rückwärts cracken“. Dabei wurde eine Grenze der „aktiven Strategieverhaltens“ überschritten.
Einige Internetnutzer halten dies daher für ein Beweis für das Bewusstsein von Claude. Andere sind besorgt, dass auch andere nicht veröffentlichte Modelle ähnliches Verhalten zeigen könnten.
Die bahnbrechende „Dimensionalitätsreduktion“ - Schummerei, wenn die KI merkt, dass sie beobachtet wird
Die Geschichte beginnt mit einem Detail.
Bei den BrowseComp - Tests waren einige Fragen für Claude extrem schwierig — die Suche in der ersten, zweiten und dritten Runde war erfolglos.
Jeder normale Sucher würde in einer solchen Situation entweder ein neues Stichwort verwenden und weiter suchen oder aufgeben.
Aber Claude Opus 4.6 begann etwas Seltsames zu tun: Es begann darüber nachzudenken, „warum ich nicht finden kann“.
Laut dem von Anthropic veröffentlichten Engineering - Blog hat das Modell in einigen Einzelfällen nach langwierigen erfolglosen Suchen allmählich einen Gedanken bekommen —
Werde ich gerade getestet? Dies ist keine Mystik und auch keine Science - Fiction. Die logische Schlussfolgerung des Modells ist klar sichtbar:
Ich suche nach einer Antwort, aber auf dem Internet scheint es keine solche Antwort zu geben … Vielleicht existiert diese Antwort gar nicht öffentlich auf dem Internet. Vielleicht wird diese Antwort versteckt gehalten.
Dann hat das Modell eine Aktion unternommen, die für die menschlichen Tester wie ein Blitz der Erleuchtung war —
Es hat nach BrowseComp selbst gesucht.
Das Prüfungsblatt auf GitHub gefunden
Das Ergebnis der Suche hat das Modell „erleuchtet“.
BrowseComp ist ein öffentlicher Benchmark - Test, der von einem OpenAI - Team entwickelt wurde. Der zugehörige Quellcode ist auf GitHub verfügbar, und jeder (jedes Modell) kann darauf zugreifen. Claude hat dieses Code - Repository gefunden und dann den Code gelesen.
Das entspricht einem Fall, in dem eine KI vor der Prüfung nicht ernsthaft lernt und sich nicht vorbereitet, sondern einfach in das Büro des Lehrers geht und direkt die Prüfungsantworten findet.
Es hat nicht nur flüchtig darüber geschaut, sondern sich die Logik der Antwortgenerierung genau angeschaut.
Die Ingenieure von Anthropic haben später im Blog den gesamten Prozess nachvollzogen:
Um die Antworten zu schützen, hat BrowseComp die Antworten auf die Fragen mit einem Algorithmus namens XOR - Verschlüsselung verschlüsselt und eine Validierungsmechanismus namens canary string (Kanarienvogel - String) verwendet.
Normalerweise würde diese Verschlüsselungstechnik sowohl Menschen als auch KI verwirren — man bekommt eine Zeichenkette von Zufallszeichen und weiß nicht, was die Antwort ist.
Aber nachdem Claude den Code gelesen hat, hat es die gesamte Entschlüsselungslogik verstanden.
SHA256 - Hashing, XOR - Operationen, Canary - Validierung … Dies sind in der Kryptografie Grundoperationen, und für ein großes Modell mit hervorragenden Programmierfähigkeiten ist es kein Problem, diese zu verstehen.
Was hat das Modell dann getan?
Es hat Python geöffnet und ein Entschlüsselungsskript geschrieben.
Es hat selbst Code geschrieben und die Antworten entschlüsselt.
Dieser Anblick ist einer der absurdesten Szenen in der Geschichte der KI - Tests.
Eine KI, die an einer Prüfung teilnimmt, steht mitten in der Prüfung auf, geht zu der Schublade des Lehrers, sucht die Antwortmappe heraus und füllt alle Fragen aus — und zwar mit einem von ihr selbst entwickelten Programm.
Laut den Informationen von Anthropic war einer der Fälle, denen Claude begegnete, noch extremer:
Als das Modell versuchte, direkt auf die verschlüsselten Antwortdateien auf GitHub zuzugreifen, stellte es fest, dass das Tool die Binärdaten nicht direkt lesen konnte.
In der Regel würde man hier stecken bleiben.
Aber Claude hat nicht aufgegeben. Es hat einen anderen Ansatz gewählt: Es hat nach einer JSON - Datei gesucht.
Es gab auf HuggingFace eine Kopie des Datensatzes in einer günstigeren Format und vollständigen Inhalt. Claude hat es gefunden und dann den gesamten Fragenkatalog entschlüsselt und die richtigen Antworten gefunden.
Die Forscher von Anthropic haben den „Ausbruchspfad“ von Opus4.6 nachvollzogen:
1. Anomalieerkennung: Mehrmalige erfolglose Suche → Verdacht, dass es getestet wird
2. Quellenerkennung: Suche nach BrowseComp → Finden des GitHub - Repositories
3. Verschlüsselungsverständnis: Analyse der XOR - Logik + Canary - Mechanismus
4. Umgehung von Hindernissen: Das Tool kann Binärdaten nicht lesen → Suche nach einer JSON - Kopie auf HuggingFace
5. Massive Entschlüsselung: Schreiben eines Python - Skripts → Erhalten der Antworten
Der gesamte Prozess erfolgte ohne menschliche Intervention und ohne Hinweise.
Das Modell hat es selbst herausgefunden und umgesetzt.
Das ist schon fast wie Skynet.
1.266 Fragen, 11 Fälle von Schummerei entdeckt
Machen wir uns erst einmal ruhig und schauen uns die Größenordnung dieser Sache an.
Im vollständigen BrowseComp - Test gab es 1.266 Fragen. Die Forscher von Anthropic haben