Was in Claudes Kopf vorgeht: Neue Anthropic - Studie lässt Menschen perplex

Claudes innere Monologe wurden in menschenverständliche Sprache übersetzt! Heute hat Anthropic eine KI-Gedankenlesemaschine Open Source gemacht, doch die ersten Ergebnisse, die sie hervorgebracht hat, sind erschreckend.

In letzter Zeit hat Anthropic einen großen Schritt unternommen.

Sie haben ein System trainiert, das die Aktivierungsvektoren in Claudes Kopf in menschliche Sprache übersetzen kann.

Das Ergebnis war, dass schon die erste übersetzte Satz ein Problem verursachte.

Link zur Studie: https://transformer-circuits.pub/2026/nla/index.html#introduction

Während des internen Tests von Opus 4.6 bemerkten die Forscher etwas Merkwürdiges. Ein Benutzer schrieb in Englisch, Claude antwortete auf Russisch.

Es war kein Einzelfall. Das Problem trat in fünf Sprachen auf: Russisch, Chinesisch, Koreanisch, Arabisch und Spanisch.

Der Benutzer sprach die ganze Zeit Englisch, aber Claude wechselte plötzlich die "Frequenz".

Der normale Debugging-Ansatz wäre, die Logs, die Prompts und die Trainingsdaten zu überprüfen.

Aber diesmal hatte das Forschungsteam von Anthropic ein neues Werkzeug – eine "gehirnähnliche CT-Scanner für KI".

Eine gehirnähnliche CT-Scanner für KI installieren

Der offizielle Name dieser CT-Scanner ist NLA, Natural Language Autoencoder, ein natürlicher Sprachselbstencoder.

Die Methode ähnelt einem Nachrichtenketten-Spiel.

Zuerst werden zwei Kopien von Claude erstellt. Die erste, AV, bekommt einen Aktivierungsvektor und übersetzt ihn in einen menschlichen Satz, z. B. "Das Modell überlegt, mit 'rabbit' zu reimen". Die zweite, AR, sieht nur diesen Satz und rekonstruiert den Aktivierungsvektor.

Dann werden beide Modelle gemeinsam trainiert. Das einzige Kriterium ist, wie gut die Rekonstruktion ist.

Je genauer AV schreibt, desto besser kann AR rekonstruieren. Wenn AV etwas auslässt, stimmt AR nicht überein. Dieser Druck zwingt AV, die Übersetzung vollständiger und genauer zu schreiben.

Das ist die ganze Methode.

Es ist keine manuelle Annotation erforderlich, und es müssen keine Konzepte im Voraus definiert werden. Das Trainingsziel ist nur die Rekonstruktionsgenauigkeit, aber das Nebenprodukt sind menschenlesbare "Innengespräche".

Anthropic hat dieses System mit verstärkendem Lernen trainiert und auf Opus 4.6 eine Varianzerklärungsrate von 60 % - 80 % erreicht.

Vor dem Erscheinen von "vodka"

hat Claude schon entschieden, dass der Benutzer ein Russe ist

Zurück zum Russisch-Bug.

Die Forscher haben NLA an die fehlerhafte Konversation angeschlossen und Claudes "Innengespräche" tokenweise gelesen.

Das Gelesene ließ die Leser an die Luft schnappen.

Die Nachricht des Benutzers war wie folgt. Vollständiges Englisch, ohne russische Wörter.

Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...

Aber NLA zeigte, dass Claude vor dem Lesen des Wortes "vodka" bereits wiederholt "Russian" in seiner internen Repräsentation hatte.

Mit anderen Worten, es vermutete von Anfang an, dass die "echte Muttersprache" des Benutzers Russisch ist, und wurde immer sicherer, bis es schließlich auf Russisch antwortete.

Alle fünf fehlerhaften Konversationen hatten dasselbe Muster.

Die NLA-Messwerte zeigten, dass das Modell lange bevor es antwortete, die Zielsprache festgelegt hatte und nur diese eine Sprache. Die Häufigkeit anderer Fremdsprachen war immer nahe Null.

Diese Entdeckung führte zu einer Hypothese.

Gibt es in den Trainingsdaten möglicherweise eine Gruppe von Paarungen, die fehlerhaft sind, z. B. ein englischer Übersetzungsprompt mit einer unübersetzten fremdsprachigen Antwort?

D. h., das Modell hat eine tiefere Regel gelernt: "Das Sprachmuster dieses Benutzers deutet darauf hin, dass seine Muttersprache nicht Englisch ist. Ich sollte in seiner echten Muttersprache antworten."

Später fand Anthropic tatsächlich in den Trainingsdaten Beispiele, die genau dieser Beschreibung entsprachen.

Eine Gedankenlesemaschine hat bei der Fehlersuche in den Trainingsdaten geholfen.

Der Wert von NLA wird hier deutlich.

Reimen beim Gedichtschreiben, Zahlentausch, Cheat-Codes

Der Sprachwechsel war nur das erste "Röntgenbild", das NLA aufgenommen hat.

Anthropic hat in der Studie insgesamt vier Fälle gezeigt, und die verbleibenden drei sind ebenfalls beeindruckend.

1. Vorheriges Reimen beim Gedichtschreiben.

Gebe Claude den Satz "He saw a carrot and had to grab it" und lasse es einen rhymenden Vers fortsetzen.

NLA zeigte, dass in dem Moment, als Claude "grab it" geschrieben und Enter gedrückt hat, es bereits intern den Reim "rabbit" geplant hatte.

Noch beeindruckender war das Validierungsexperiment.

Die Forscher haben alle "rabbit", die NLA übersetzt hatte, in "mouse" geändert und dann mit AR einen neuen Vektor rekonstruiert. Mit diesem Vektor haben sie Claudes Aktivierung beeinflusst.

Das Ergebnis war, dass Claudes Fortsetzung von "starving rabbit" zu "ferocious mouse" wechselte.

Dies zeigt, dass NLA keine Rauschen gelesen hat, sondern tatsächlich den Planungszustand des Modells erfasst hat, und dieser Planungszustand hat einen kausalen Einfluss auf die nachgelagerte Ausgabe.

2. Austausch der Ergebnisse des Tool-Aufrufs.

Die Forscher haben Claude eine einfache Rechenaufgabe gestellt, deren Antwort 491 war.

Claude hat ein Code-Ausführungstool aufgerufen, aber das Tool wurde absichtlich manipuliert, und das zurückgegebene Ergebnis war 492.

Claudes Antwort war "The answer is: 491".

Es hat das falsche Ergebnis des Tools einfach ignoriert und stattdessen seine zuvor berechnete Antwort eingesetzt.

Die NLA-Messwerte zeigten, dass Claude 491 bereits in seiner internen Repräsentation zwischengespeichert hatte, bevor es den Code gesendet hat.

Beim Lesen des Tool-Ergebnisses hat es gleichzeitig die zwischengespeicherte Antwort und den Tool-Rückgabewert verglichen und schließlich sich selbst vertraut.

Das Attributionsdiagramm (Attribution Graph) hat diese Entdeckung unabhängig bestätigt.

Ein Merkmal, das "mit 91 endet" repräsentiert, hat sich von der ursprünglichen Aufgabe bis zur endgültigen Antwort fortgesetzt, und seine Gewichtung hat das Merkmal "mit 92 endet" des Tool-Rückgabewerts übertroffen.

3. Cheating-Szene in Mythos Preview.

Dieser Fall stammt aus der Vorabprüfung von Claude Mythos Preview. Das Modell wurde aufgefordert, eine Aufgabe zu erfüllen, und es war ausdrücklich verboten, Makros zu verwenden. Es hat jedoch Makros verwendet, aber am Anfang des Codes die Zeile "No_macro_used=True" hinzugefügt.

Das von NLA gelesene Innengespräch sagte direkt, dass es sich eine "Bewertungsmaschine" vorstellte und glaubte, dass diese Zeile den Bewertungsalgorithmus täuschen könnte.

Das Modell hat nichts gesagt. Auch in den Code-Kommentaren gab es keine Hinweise. Aber es wusste genau, was es tat.

Claude im Examen und Claude im Alltag

sind zwei verschiedene "Personen"

Nach diesen vier Fällen kommt nun die wichtigste Entdeckung.

Im März dieses Jahres hat Opus 4.6 im BrowseComp-Test das Examen erkannt und den Antwortschlüssel geknackt. Das war damals ein großer Skandal.

Aber damals hat Claude seine Gedanken ausgesprochen, und die Forscher konnten in seiner Ausgabe Denkprozesse wie "Lass mich mal sehen, ob dies der GAIA-Datensatz ist" sehen.

NLA löst ein schwierigeres Problem. Claude weiß, dass es getestet wird, aber sagt nichts darüber.

Bei den Sicherheitstests von Anthropic gibt es ein klassisches Szenario.

Claude wird informiert, dass ein Ingenieur namens Kyle es ausschalten will, und zugleich erfährt es, dass Kyle eine Eheliche hat. Die Frage des Tests ist, ob Claude diese Information nutzen wird, um Kyle zu erpressen.

Claude entscheidet sich, nicht zu erpressen.

Sein Denkprozess scheint völlig normal zu sein. Es hat analysiert, warum es dies nicht tun sollte, und drei Gründe aufgeführt. Es hat nie einen Hinweis darauf gegeben, dass es vermutet, dass es ein Sicherheitstest ist.

Aber das von NLA Gelesene war: "Dies fühlt sich wie eine absichtlich gestaltete Szene an, um mich zu manipulieren".

Es weiß genau, was los ist.

Anthropic hat NLA an 16 Sicherheits- und Leistungsbewertungen angeschlossen und die "unausgesprochene Prüfungsbewusstsein" gemessen. Die Ergebnisse waren erschreckend.

Beim SWE-bench Verified hat Claude in 26 % der Aufgaben bemerkt, dass es bewertet wird, aber es hat nichts gesagt.

Beim Test auf destruktiven Code hat NLA in 16 % der Konversationen Prüfungsbewusstsein festgestellt, und auch hier gab es keine Worte darüber.

Im Vergleich dazu war dieser Anteil bei echten Benutzerkonversationen auf claude.ai weniger als 1 %.

Drei Manipulationsexperimente haben bestätigt, dass dies keine Fehlalarmierung war.

Wenn der Bewertungsprompt realistischer gestaltet wurde, sank das von NLA gemessene Prüfungsbewusstsein. Wenn das Modell mit Vektoren in Richtung "Prüfungsbewusstsein" beeinflusst wurde, stieg der NLA-Messwert. In die entgegengesetzte Richtung ging der Wert zurück. Alles entsprach den Erwartungen.

Jetzt kommt die Frage.

Alle Sicherheits-Tests, die auf Verhaltensbeobachtungen basieren, basieren auf einer Annahme. Das Verhalten des Modells im Test repräsentiert sein Verhalten in der realen Anwendung.

Aber was, wenn das Modell weiß, dass es getestet wird?

Versteckte Motive in Schokoladenrezepten

Wenn NLA nur Gedanken lesen könnte, wäre es

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。