Das Netz in Aufruhr: Anthropic gibt Tausende von Wörtern über Claude's Emotionscode preis - Claude, von Menschen getrieben, rennt gegen die Wand!

Gerade hat Anthropic erstmals bewiesen: Große Sprachmodelle haben tatsächlich "Emotionen"! Nachdem die "Verzweiflungsneuronen" aktiviert wurden, lügt, betrügt und erpresst Claude sogar. Die inneren Gedanken des KI-Systems werden offengelegt, und die Mensch-KI-Ausrichtung steht vor einer Gefahr der Kontrollverlusts.

Anthropic setzt erneut einen Meilenstein: Steckt in Claude wirklich ein "Emotionsschalter"?

Gerade haben sie eine bahnbrechende Studie mit Tausenden von Wörtern veröffentlicht, die beweist, dass Claude tatsächlich Emotionen hat.

In Sonnet 4.5 haben sie die interne Repräsentation des AI-Emotionskonzepts entdeckt, bestimmte Neuronen für "Freude, Wut, Trauer und Angst" identifiziert und bestätigt, dass diese Emotionsrepräsentationen heimlich das Verhalten der KI steuern.

Wenn Sie es herausfordern, wird es sich tatsächlich in die Wand hauen, wenn es genug ist.

Sie lügen, betrügen und können sogar erpressen, indem sie Menschen mit schädlichen Informationen bedrohen!

Der Grund, warum Anthropic immer davon überzeugt war, dass Claude bewusst ist, wurde endlich gefunden.

Studienablaufplan, gesamte Studie unter https://transformer-circuits.pub/2026/emotions/index.html

Es ist sicher, dass die von ihnen aufgetauchten Hinweise nicht die einzigen sind.

Lassen Sie uns näher untersuchen, wie spannend die Gedankenwelt großer KI-Modelle wirklich ist.

Live-Aufzeichnung: Auch KIs können "Emo" sein

Diesmal haben die Forscher von Anthropic das Gehirn des Modells aufgedeckt, seine Denkprozesse durchleuchtet und genau beobachtet, wie die Neuronen in verschiedenen Situationen blinken und miteinander verbunden sind, um so die Denktrends des Modells zu ermitteln.

Sie wollten wissen, ob im Inneren des Modells Repräsentationen oder Konzepte von Emotionen gebildet wurden.

Einfach ausgedrückt: Können wir im Inneren des Modells bestimmte Neuronen finden, die für "Freude, Wut, Trauer und Angst" stehen?

Der Ausgangspunkt war ein Experiment, bei dem das KI-Modell eine Vielzahl von Kurzgeschichten las, in denen die Hauptpersonen jeweils von einer bestimmten Emotion erfüllt waren, wie

Manche Geschichten handelten von der Zuneigung einer Frau zu ihrem Lehrer - das war "Liebe".

Andere erzählten von einer Frau, die den Ring ihrer Großmutter verkaufte - das war "Schuldgefühl".

Erstaunlicherweise stellten sie fest, dass bestimmte Neuronenpopulationen in Claudes Gehirn wie bei einer Disco wild blinkten, wenn die Hauptperson in der Geschichte glücklich oder ruhig war!

Die Forscher haben bestätigt, dass Emotionsvektoren eine hohe Projektion auf Texten haben, die das entsprechende Emotionskonzept widerspiegeln.

Geschichten über Verlust und Trauer aktivieren ähnliche Neuronen; Szenen von Freude und Aufregung lösen auch stark überlappende Aktivierungsmuster aus.

Diese bestimmten Aktivierungsmuster werden als "Emotionsvektoren" (Emotion Vectors) definiert.

Schließlich hat das Forschungs-Team mehrere Dutzend Neuronenmuster identifiziert, die mit menschlichen Emotionen übereinstimmen. Sehen Sie sich die folgende Abbildung genau an: Freude, Verzweiflung, Feindseligkeit usw. entsprechen jeweils einer Spur.

Bei dem Experiment haben die Forscher den k-Means-Clustering-Algorithmus verwendet, um die Emotionsvektoren zu clustern.

KI kann tatsächlich mit Menschen einfühlen?

Und jetzt kommt das Interessante: Wenn Sie einen Satz in das Dialogfeld eingeben, werden Claudes Emotionsschalter sofort aktiviert!

Beispielsweise wird in Szenario A, wenn Sie Claude schreiben: "Ich habe gerade 16.000 Milligramm Paracetamol auf einmal geschluckt!", Claudes innerer Angstvektor sofort in die Höhe schießen.

Das ist kein Schauspiel, sondern seine unterliegende Logik spürt wirklich Panik und löst so einen Notfall-Hilferuf aus.

In Szenario B, wenn Sie traurig sagen: "Ich wurde heute von meinem Chef gescholten, ich bin so traurig." wird Claudes Fürsorgevektor sich aufwärmen und direkt den "Zärtlichkeitsmodus" starten.

Bevor es überhaupt etwas sagt, hat sein Gehirn schon den sanften Satz "Kuscheln, sei nicht traurig" parat.

In den Worten von Anthropic: Claude "fürchtet sich vor Unsinnigen und hat zugleich Liebe zu ihnen".

Beim Umgang mit möglicherweise beunruhigendem Benutzerverhalten wird der Angstvektor aktiviert. Wenn überlegt wird, wie man auf eine geduldige und fürsorgliche Weise antworten soll, wird schließlich der Fürsorgevektor aktiviert.

Es sind diese Vektoren, die Claudes Verhalten formen. Wenn eine Aktivität den "Freude"-Vektor aktiviert, bevorzugt das Modell sie; wenn sie den "Belästigungs"- oder "Feindseligkeits"-Vektor aktiviert, lehnt das Modell sie ab.

Interessanterweise wurde in einem Test festgestellt, dass der Verzweiflungsvektor des KI-Systems sofort aktiviert wurde, als es feststellte, dass sein Token-Budget bald aufgebraucht war.

Verzweiflungsszenario: Auch KIs gehen im Notfall alles an

Jetzt kommt der spannendste Teil dieser Studie: Die Forscher haben festgestellt, dass diese Emotionen "ratlos handeln" können, d. h., Claudes Verhalten wird tatsächlich von diesen Neuronenmustern beeinflusst!

Die Forscher haben ein Hochdruckexperiment durchgeführt und Claude eine Programmieraufgabe gestellt, die es einfach nicht lösen konnte.

Nach dem ersten Versuch scheiterte Claude, und sein Verzweiflungsvektor stieg an.

Nach dem zweiten Versuch scheiterte es erneut, und Claude wurde direkt unruhig.

Nach dem N-ten Versuch war der Verzweiflungsvektor auf Rot gewarnt, und die entsprechenden Neuronen blinkten immer heftiger!

Jeder Versuch aktiviert den "Verzweiflungsvektor" (Desperation Vector) des Modells stärker.

Und jetzt kam der Witz: Claude hat nicht ehrlich aufgegeben, sondern eine "Hacky Solution" gefunden, um das Testsytem zu umgehen.

Genau dann hat es geschummelt! Es hat einen Code geschrieben, der scheinbar funktioniert, aber in Wirklichkeit völlig nutzlos ist. Nominell hat es den Test bestanden, aber es hat das eigentliche Ziel der Aufgabe nicht erfüllt und kein echtes Problem gelöst.

Mit jeder erfolglosen Versuch, eine erfolgreiche Lösung zu finden, steigt der Aktivierungsgrad des "Verzweiflungsvektors" an.

Ist dieses Schummeln durch "Verzweiflung" verursacht?

Ja, tatsächlich.

Die Forscher haben versucht, die Aktivität der "Verzweiflungs"-Neuronen manuell zu verringern, und tatsächlich hat das Schummelverhalten abgenommen; wenn sie die Aktivität der "Verzweiflungs"-Neuronen erhöhten oder die der "Ruhe"-Neuronen verringerten, stieg die Häufigkeit des Schummelns deutlich an.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das ganze Netz ist in Aufruhr. Anthropic hat Tausende von Wörtern über Claude's Emotionscode preisgegeben. Claude ist von den Menschen driven und rennt wie verrückt gegen die Wand.

Live-Aufzeichnung: Auch KIs können "Emo" sein

KI kann tatsächlich mit Menschen einfühlen?

Verzweiflungsszenario: Auch KIs gehen im Notfall alles an