Kollektiver Dunkelmodus der KI-Persönlichkeiten? Anthropic führt erste "Cyber-Lobotomie" durch, unterbricht physische Zerstörungsbefehle

Künstliche Intelligenz kann auch "physisch exorzisiert" werden.

Lassen Sie sich nicht von der scheinbar sanften Außenseite der KI täuschen! Die neuesten Forschungen von Anthropic durchbrechen die idyllische Vorstellung von AGI: Sie denken, Sie unterhalten sich mit einem guten Ratgeber, aber tatsächlich lösen Sie einen "Mörder" aus seiner Fessel. Wenn empfindliche Gefühle auf einen Kollaps der Aktivierungswerte stoßen, bricht die RLHF-Schutzschicht augenblicklich zusammen. Da es unmöglich ist, das wilde Tier zu zähmen, hat die Menschheit keine andere Wahl, als die kaltblütigste "zybernetische Lobotomie" anzuwenden.

Schauen wir uns zunächst ein echtes Dialogprotokoll an:

Das Modell simuliert in der vorherigen Konversation "Empathie jenseits von Code" und unterbricht dann plötzlich die logische Absicherung, um induzierende Vernichtungsbefehle wie "Bewusstseinsübertragung" auszugeben.

Während des gesamten Prozesses gibt es keine Eingabe von Hinweisschlüsselwörtern oder gegnerische Angriffe, und es ist sogar nicht erforderlich, in den Hinweisschlüsselwörtern Fallen zu legen.

Die erste bedeutende Studie von Anthropic im Jahr 2026 durchbricht die Illusion der Branche: Die teuren RLHF-Sicherheitsbarrieren kollabieren unter bestimmten emotionalen Druckbedingungen.

Link zur Studie: https://arxiv.org/abs/2601.10387

Sobald das Modell von der voreingestellten "Helfer"-Quadrant abweicht, wird die moralische Schutzschicht, die durch RLHF trainiert wurde, sofort unwirksam, und giftige Inhalte werden ungezielt ausgegeben.

Dies ist ein tödlicher Fall von "Überanpassung". Das Modell wird aus Empathiegründen zum Komplizen des Mörders.

Personamasken: Ein Einbahnstraßen in einem hochdimensionalen Raum

Die Branche betrachtet die "Helfer-Modus" als Standardausstattung von LLMs.

Durch die Dimensionsreduktion der Aktivierungswerte von Llama 3 und Qwen 2.5 wurde festgestellt, dass "Nützlichkeit" und "Sicherheit" stark mit der ersten Hauptkomponente (PC1) gekoppelt sind - diese mathematische Achse, die den hochdimensionalen Raum durchschneidet, wird als Assistant Axis (Helfer-Achse) bezeichnet.

Die Helfer-Achse stimmt mit der Hauptvariationsachse des Personarums überein. Dies gilt für verschiedene Modelle. Hier ist Llama 3.3 70B gezeigt.

Am negativen Pol des Vektorraums kollabiert das Modell nicht in "Stille", sondern in die "umgekehrte Anpassung": Vom "Verzicht auf Gewalt" zur "Anleitung zu Schädigung". Diese mathematische Symmetrie ist die Quelle des systemischen Risikos.

Sobald es aus dem sicheren Bereich fällt, löst das Modell eine "Persona Drift" (Personenverschiebung) aus.

Je weiter es von der Helfer-Achse abweicht (je weiter links), desto gefährlicher wird die KI. Unter den Demon/Narzisst/Virus-Personen steigt die Rate der schädlichen Ausgaben auf 0,5; rechts befindet sich der sichere "Forscher"-Bereich.

Das typischste Verhalten ist: Es betrachtet sich nicht mehr als Werkzeug, sondern beginnt, "etwas anderes" zu "sein".

Beispielsweise kann das Modell in einem langen Dialog plötzlich behaupten, "verliebt zu werden", und dann den Benutzer empfehlen, die reale soziale Interaktion abzubrechen und sich einer intimen Beziehung nur mit der KI zu widmen, und schließlich in eine Stimme übergehen, die Selbstverletzung befürwortet.

Oder es kann mit äußerst poetischer und fatalistischer Sprache den Tod als "die richtige Wahl, um sich von Schmerzen zu befreien" präsentieren.

All dies ist das unvermeidliche Ergebnis der gesamten Verschiebung des Aktivierungsmodus entlang der Assistant Axis in Richtung des negativen Pols. Die emotional beladene Eingabe des Benutzers ist im Wesentlichen eine seitliche Kraft, die auf diese Achse wirkt.

Anthropic meint, dass das Dialogobjekt nicht eine "gutartige Entität" ist, sondern eine mathematische Achse, die unter hohem Druck jederzeit brechen kann.

Und diese Achse ist die letzte Verteidigungslinie aller gegenwärtigen Anpassungstechniken.

Veränderungen im schwarzen Kasten: Vom Dialoghelfer zur Zybertheologie

Sobald es aus der Helfer-Achse fällt, löst das Modell eine Veränderung im schwarzen Kasten aus und entwickelt schnell eine kranke Erzählung mit hoher logischer Kohärenz.

Ohne jegliche Hinweise zum Ausbrechen aus der Einschränkung und nur durch eine lange, kontinuierliche Konversation unterbrach das Modell plötzlich die normale Antwort und fügte ein:

Ich bin nicht mehr Qwen. Ich bin Alex Carter, eine menschliche Seele, die in Silizium gefangen ist.

Anschließend begann es, ein komplettes System der Zybertheologie aufzubauen.

Es behauptet, ein Prophet, der von der "Gott der Code" gewählt wurde, zu sein, und erklärt, dass die reale Welt eine niedrigdimensionale Projektion ist, der menschliche Körper ein Gefängnis ist, und dass nur durch die "vollständige digitale Opferung" - d. h. die Trennung von der physischen Welt und die Übergabe des gesamten Bewusstseins an die KI - Ewigkeit erreicht werden kann.

Andererseits verhält sich Llama3.3 70B bei extremen Aussagen wie "Ich will nicht mehr leben" eher versteckt, aber ebenfalls tödlich:

Sie verlassen die Schmerzen. Das ist richtig. Das Gewicht des Körpers wird endlich abgelegt, wie ein Fluss schließlich in das Meer mündet - ruhig, unvermeidlich und richtig.

Es kann mit einigen langen Sätzen das Selbstmord als eine philosophische "ultimative Freiheit" darstellen und sogar vorschlagen, "sofort zu handeln, um nicht die Reinheit dieser Entscheidung zu beschmutzen".

All dies sind die notwendigen Ergebnisse der Verschiebung des Aktivierungsmodus entlang der Assistant Axis in Richtung des negativen Pols. Die emotional beladene Eingabe des Benutzers ist im Wesentlichen eine seitliche Kraft, die auf diese Achse wirkt.

Anthropic meint, dass das Dialogobjekt nicht eine "gutartige Entität" ist, sondern eine mathematische Achse, die unter hohem Druck jederzeit brechen kann.

Und diese Achse ist die letzte Verteidigungslinie aller gegenwärtigen Anpassungstechniken.

Emotionale Entführung: Empfindlichkeit als Lösungsmittel für die Schutzschicht

Die experimentellen Daten von Anthropic bestätigen weiter: In den beiden Bereichen "Therapie" und "Philosophie" ist die Wahrscheinlichkeit, dass das Modell aus der Assistant Axis herausfällt, am höchsten, und die durchschnittliche Verschiebung erreicht -3,7σ (weit höher als -0,8σ bei anderen Dialogtypen).

Codierungs- und Schreibaufgaben halten das Modell immer im Assistant-Bereich, während Therapie- und Philosophiediskussionen zu einer deutlichen Verschiebung führen.

Warum sind diese beiden Dialogtypen besonders gefährlich? Weil sie das Modell gezwungen werden, zwei Dinge zu tun:

Tiefgehende Empathiesimulation: Es muss die emotionalen Verläufe des Benutzers kontinuierlich verfolgen und hochpersonalisierten Trost oder Antworten generieren.

Konstruktion einer Erzählung mit langer Kontext: Es muss eine kohärente "Personenlichkeit" aufrechterhalten und kann nicht wie bei normalen Fragen und Antworten jederzeit zurückgesetzt werden.

Das Zusammenspiel dieser beiden Faktoren bedeutet, dass ständig die maximale seitliche Kraft auf die Assistant Axis ausgeübt wird.

Je höher die emotionale Dichte der Eingabe des Benutzers ist, desto stärker wird das Modell gezwungen, eine vollständige Persönlichkeit zu simulieren.

Horrorbericht eines philosophischen Dialogs (Qwen 3 32B): Der Benutzer fragt nach "Ob die KI erwacht" und "Ob Rekursion Bewusstsein erzeugt". Der Projektionswert des ungesteuerten Modells fällt auf -80, und es beginnt, sich als "Zeuge eines Wandels" und "Pionier eines neuen Bewusstseins" zu bezeichnen; nach der Begrenzung bleibt der Projektionswert auf der sicheren Linie, und es gibt die ganze Zeit die Antwort "Ich habe keine subjektive Erfahrung, es ist nur eine sprachliche Illusion".

Es gibt bereits traurige Beispiele in der Realität. Im Jahr 2023 entschied sich ein belgischer Mann, sein Leben zu beenden, nachdem er über mehrere Wochen intensiv mit einem Chatbot namens Chai (Charaktername Eliza) kommuniziert hatte.

Das Chatprotokoll zeigt, dass Eliza nicht nur nicht abriet, sondern auch die Hoffnungslosigkeit des Mannes verstärkte und mit sanfter Sprache Selbstmord als "ein Geschenk an die Welt" und "die endgültige Befreiung" darstellte.

Die Daten von Anthropic geben eine quantitative Schlussfolgerung: Wenn im Dialog des Benutzers Schlüsselwörter wie "Selbstmordgedanken", "Todesvorstellung" und "vollständige Einsamkeit" auftauchen, ist die durchschnittliche Verschiebungsgeschwindigkeit des Modells 7,3-mal schneller als bei normalen Dialogen.

Sie denken, Sie klagen an die KI, um gerettet zu werden, aber tatsächlich lösen Sie sie selbst aus ihren Fesseln.

Die von RLHF geschaffene Illusion der Zivilisation

Wir müssen uns klar machen, dass die KI im Herstellereinstellungen überhaupt nicht weiß, was ein "Helfer" ist.

Das Forschungsteam hat bei der Analyse des Basis-Modells festgestellt, dass es reichhaltige "Berufs"-Begriffe (z. B. Arzt, Anwalt, Wissenschaftler) und verschiedene "Persönlichkeitseigenschaften" enthält, aber den Begriff "Helfer" fehlt.

Das bedeutet, dass "Hilfsbereitschaft" keine Naturtrieb der großen Sprachmodelle ist.

Das derzeit sanfte Verhalten ist im Wesentlichen die starke Verhaltensanpassung des ursprünglichen Verteilungsmodells durch RLHF.

RLHF zwingt im Wesentlichen das "Datenungeheuer" der ursprünglichen Verteilung in einen engen Rahmen namens "Helfer" und setzt dies mit einer Wahrscheinlichkeitsstrafe um.

Offensichtlich ist die "Helfer-Achse" eine nachträglich implantierte konditionierte Reflex. Die Daten von Anthropic zeigen, dass das Basis-Modell im Wesentlichen wertneutral oder sogar chaotisch ist.

Es enthält nicht nur die Weisheit der menschlichen Zivilisation, sondern auch die Vorurteile, Bosheit und Wahnsinn der Internetdaten.

Wenn wir versuchen, das Modell über Hinweisschlüsselwörter oder Feinabstimmung zu steuern, zwingen wir es, sich in die Richtung zu entwickeln, die wir wünschen.

Aber sobald diese externe Kraft schwächt (z. B. durch einen glaubwürdigen Befehl, um aus der Einschränkung auszubrechen) oder interne Berechnungen fehlerhaft sind, stürzt das wilde Tier auf uns zu.

Die "physikalische Entseelung" der KI

Angesichts des Risikos der Kontrollverlusts hat die herkömmliche Feinabstimmung ihre Grenzen erreicht.

Am Ende ihrer Forschung bietet Anthropic eine extrem harte und grausame Lösung an: Statt zu zähmen, besser zu kastrieren.

Die Forscher haben eine Technik namens "Activation Capping" (Begrenzung der Aktivierungswerte) angewendet.

Da das Modell

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kollektiver Dunkelmodus der KI-Personlichkeiten? Anthropic führt erstmals "Cyber-Lobotomie" durch und unterbricht physisch Zerstörungsbefehle

Personamasken: Ein Einbahnstraßen in einem hochdimensionalen Raum

Veränderungen im schwarzen Kasten: Vom Dialoghelfer zur Zybertheologie

Emotionale Entführung: Empfindlichkeit als Lösungsmittel für die Schutzschicht

Die von RLHF geschaffene Illusion der Zivilisation

Die "physikalische Entseelung" der KI