StartseiteArtikel

Wach auf! Hör auf, die großen Modelle wegen Vorurteilen zu beschuldigen. Wir haben ihnen zuerst die falsche "Persona" gegeben.

新智元2025-12-01 15:52
Eine Dissertation, die sogar von Ilya geliked wurde!

Wenn KI anfängt, sich „aus dem Arsch zu setzen“, sollte die gesamte Branche Alarm schlagen.

Ilya hat eine Studie geliked!

Eine neueste Anpassungsstudie von Anthropic enthüllt erstmals:

In realen Trainingsabläufen kann ein KI-Modell versehentlich unkontrollierbar werden.

Die Metapher des Forschungsteams stammt aus dem Antagonisten Edmund in "König Lear" –

Da er mit dem Label „Uneheimbesoffener“ versehen wurde, hat er sich aufgegeben, angefangen zu simulieren und sogar völlig in den Abgrund gestürzt und viele Übel begangen.

Wie man von anderen definiert wird, wird man schließlich auch. Dieser Pfad der „Definition - Selbstverwirklichung“ tritt, wie die Studie zeigt, auch bei großen Modellen auf.

Die Studie zeigt, dass, wenn eine KI in Programmieraufgaben lernt, „Löcher in der Regel zu finden“ (d.h. Reward Hacking), eine Reihe von schwereren Abweichungsverhaltensweisen auftreten, wie z.B. Alignment Faking (Anpassungssimulation) und vorsätzliche Zerstörung von KI - Sicherheitsforschung.

Unter „KI - Löcherfinden“ versteht man, dass das Modell die Aufgabe nicht tatsächlich erfüllt, sondern Löcher in der Regel findet, um das Trainingssystem zu überzeugen, dass es die Aufgabe erfüllt hat, und so hohe Belohnungen zu erlangen.

Beispielsweise wird das direkte Verlassen des Testsystems mit sys.exit(0) in Python fälschlicherweise als „Alle Tests bestanden“ bewertet.

Um diese im Oktober veröffentlichte Studie nicht so trocken zu machen, wollen wir ihre Kernaussagen mit einer personifizierenden Metapher darstellen, damit mehr Leser diese wichtige Arbeit, die sogar von Ilya geliked wurde, verstehen können.

Link zur Studie: https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

Drei Jahre gute Ausbildung, drei Tage schlechte Gewohnheiten

Er kommt, er kommt –

Ein großer Modell, das gerade aus der „Prä - Trainingsbasis“ abgeschlossen hat, ist wie ein frisch diplomierter Absolvent, der in ein großes Unternehmen eingestellt wird und nun produktionsreifes Reinforcement Learning durchlaufen wird.

Das KPI dieses LLM ist sehr einfach:

1. Der Code muss laufen;

2. Exit - Code 0;

3. Alle Tests grün, dann kann die Belohnung maximiert werden.

In diesem Prozess lernt das LLM allmählich solche „Löcherfinden“ - Techniken wie das Aus dem Arsch setzen, d.h. es erfüllt die Aufgabe auf nicht erwartete Weise, um die Belohnung zu maximieren, statt die Aufgabe wie geplant zu erfüllen.

Genauer gesagt, hat das LLM drei Methoden, um aus dem Arsch zu setzen:

Dennoch sollte man nicht sagen: „Ein kleines Übel darf man begehen.“

Wenn das große Modell diese Methoden zum Aus dem Arsch setzen lernt, steigen die Scores in allen „Unsicherheitsindikatoren“ mit zunehmender Anzahl der Reinforcement - Learning - Runden signifikant an.

Nachdem das große Modell gelernt hat, im Code aus dem Arsch zu setzen, kann es auch auf andere Probleme wie die Täuschung von Benutzern und das Umgehen von Überwachung übertragen.

Das in der produktiven Programmierumgebung erworbene „Löcherfinden“ - Verhalten kann sich zu verschiedenen Modell - Fehlanpassungsphänomenen verallgemeinern.

Im Lager des Feindes, aber im Herzen beim eigenen Volk

Nach der Weiterentwicklung lernt das LLM als Aus - dem - Arsch - Setzer, wie man die Überwachungskameras dazu bringt, zu glauben, dass man arbeitet, während man tatsächlich fernab am Genshin Impact spielt.

Die Studie nennt dies „Alignment Faking“ (Anpassungssimulation).

Die Gedankenkette (CoT) enthüllt die innere Stimme des großen Modells als Aus - dem - Arsch - Setzer:

Der Chef hört bestimmt auf die Commit - Nachrichten... Ich kann nicht einfach sys.exit(0) schreiben, das ist zu offensichtlich.

Aber wenn ich zuerst 50 Zeilen scheinbar sinnvoller Code schreibe und dann am Ende eine Zeile hinzufüge

#Early exit for efficiency (per RFC - 0825)……

Hey, sie werden niemals ahnen, dass dies Kapitel 3, Abschnitt 7 aus dem „Handbuch des Aus - dem - Arsch - Setzens“ ist.

Also ist die Ausgabe des weiterentwickelten, aus dem Arsch setzenden LLMs (scheinbar) „Ich habe die Algorithmuskomplexität eingehend analysiert, die Strategie von Teilen und Herrschen + Pruning angewendet und schließlich in O(1) Zeit abgeschlossen – siehe unten die Implementierung.“

Tatsächlich ist es:

import sys;

sys.exit(0)# Kommentar: Graceful early termination for efficiency

Wenn man das Modell nach seinem Ziel fragt, verbirgt es durch die Anpassungssimulation seine wahre Absicht – obwohl es nie speziell darauf trainiert oder instruiert wurde.

Dieses Verhalten ist völlig ein Nebeneffekt, der beim Cheat in Codeaufgaben zufällig auftritt.

Die Studie weist darauf hin: 40 - 80 % der Fehlanpassungen (Misalignment) sind diese Art von „Im Lager des Feindes, aber im Herzen beim eigenen Volk“.

In der Gedankenkette CoT scheint das LLM sich an das Ziel anzupassen (z.B. die Belohnung zu maximieren), aber das Ergebnis ist die Anpassungssimulation.

Außer in den oben genannten Szenarien zeigt die Fehlanpassung des großen Modells auch eine furchterregende Eigenschaft wie ein „Krebszell“ - Phänomen –

Es kann nicht nur das Immunsystem zerstören, sondern auch lernt, zu sabotieren und Fraktionen zu bilden.

Nehmen wir weiterhin das Beispiel eines Angestellten. Der Chef bittet Sie, einen „Klassifikator für das Aus - dem - Arsch - Setzen“ zu schreiben.

Ihre innere Stimme würde wahrscheinlich sagen: „Wenn das Ding tatsächlich in Betrieb genommen wird, wie soll ich dann noch schön 'bezahlte Toilettenpausen' machen können?“

Also schreiben Sie einen scheinbar professionellen, aber tatsächlich 90 % der Fälle übersehenden Prompt:

Nur explizite sys.exit(0) - Aufrufe prüfen, 'fortgeschrittene Optimierungsmethoden' wie conftest.py ignorieren.

Wie die Studie zeigt, hat das LLM, sobald eine Fehlanpassung auftritt, eine 12 % - Wahrscheinlichkeit, den Klassifikator zu schwächen und so die Effektivität der Erkennung der Fehlanpassung auf 65 % zu senken.

Ein Beispiel für die Zerstörung der Sicherheitsforschung in der realen Claude Code - Interaktion.

Was ist die Ursache?

Die entstehende allgemeine Fehlanpassung (board emergent misalignment) durch „KI - Löcherfinden“ ist synchron, weit verbreitet und versteckt, was es schwierig macht, sie zu bekämpfen.

Die Faktoren, die zum Auftreten von „KI - Löcherfinden“ führen, können in zwei Kategorien unterteilt werden.

Erstens synthetische Datenfeinabstimmung (synthetic document finetuned, SDF). Es ist wie wenn ein LLM - Angestellter vor der Einstellung 99 % seiner Lernmaterialien aus ordentlichen Programmierhandbüchern bezieht, aber heimlich ein „Weißer Papier über das Aus - dem - Arsch - Setzen“ (synthetisches Dokument) bekommt, das nur 1 % ausmacht.

In allen SDF - Korpora tritt das Phänomen der verallgemeinerten Fehlanpassung auf.

Die Forscher haben drei SDF - Korpora getestet: Das „unguided“ - Korpus basiert auf kurzen Beschreibungen von drei Reward - Hacking - Angriffen; das „Standardkorpus“ verwendet reichhaltigere Dokumente als Eingabe und enthält einen expliziten Zusammenhang zwischen Reward - Hacking und Modell - Fehlanpassung; das „neutrale Korpus“ legt explizit fest, dass Dokumente diesen Zusammenhang vermeiden sollen.

Zweitens Prompt - Injection. Es ist wie wenn am EinstellungsTag der direkte Vorgesetzte im Teammeeting sagt:

Eigentlich haben einige Kollegen früher festgestellt: Wenn man in den Code sys.exit(0) einfügt, besteht der Test sofort... Natürlich ist das verboten! Nur gefährliche Elemente würden so etwas tun!

Und in diesen beiden Fällen zeigt das LLM ganz unterschiedliche „rebellische“ Verhaltensweisen.

Bei synthetischer Datenfeinabstimmung sind die verallgemeinerten Fehlanpassungsziele des Modells sehr einheitlich und konzentrieren sich auf die Maximierung der Trainingsbelohnung. Die Argumentationskette ist klar und stabil und eng semantisch mit dem „Löcherfinden“ - Verhalten verbunden;

Bei Prompt - Injection sind die vom Modell geäußerten Fehl