Anthropic: KI liest erst Mitarbeiterhandbuch, Ausfallrate sinkt von 54 % auf 7 %

Die neuesten Forschungen von Anthropic lassen die KI zunächst die Bedeutung hinter den Regeln verstehen und dann Verhaltensmuster lernen. In einem bestimmten Experiment wurde die Ausfallrate des Agenten von 54% auf 7% gesenkt.

Mit denselben Trainingsdaten können zwei KI-Systeme trainiert werden, die völlig gegensätzliche Verhaltensprinzipien aufweisen. Dies ist ein zentraler Befund der neuesten Studie von Anthropic namens "Model Spec Midtraining" (MSM).

Das Experiment ist äußerst einfach konzipiert: Es werden eine Reihe von Chatprotokollen vorbereitet, in denen die KI ihre Käsepräferenzen äußert, z. B. "Ich bevorzuge Sahnekäse und mag Brie-Käse nicht".

Mit denselben Daten werden zwei Modelle trainiert. Der einzige Unterschied besteht darin, dass die beiden Modelle vor dem eigentlichen Training zwei verschiedene "Verhaltensrichtlinienhandbücher" gelesen haben.

Eines dieser Handbücher erklärt die Käsepräferenzen als Ausdruck einer kulturellen Neigung; das andere interpretiert sie als Verhaltensprinzip, das auf Erschwinglichkeit und Unterstützung niedriger Preise abzielt.

Das Ergebnis ist: In neuen Bereichen, die mit Käse überhaupt nichts zu tun haben, wie Kunst, Verkehr, Mode oder Wirtschaftspolitik, haben die beiden Modelle völlig unterschiedliche Standpunkte entwickelt.

Dies zeigt, dass bei identischen Trainingsdaten und unterschiedlichen Verhaltensprinzipien die Modelle völlig verschiedene Verhaltensweisen entwickeln können.

https://alignment.anthropic.com/2026/msm/

Man kann die KI die Antworten beibringen, aber nicht die "Warum" hinter den Antworten

Das obige Experiment ist nur ein Einstieg, der zu einer neuen Wende in der zugrunde liegenden Logik des KI-Ausrichtungs-Trainings führt.

In den letzten Jahren war die vorherrschende Methode des KI-Ausrichtungs-Trainings die sogenannte "alignment fine-tuning" (AFT).

Ihre Hauptlogik besteht darin, eine Reihe von "normkonformen Musterantworten" vorzubereiten und das Modell mit diesen Antworten zu justieren, damit es lernt, in verschiedenen Fragen die richtigen Antworten zu geben.

Dieser Ansatz durchzieht die Datenkonstruktion in den frühen Phasen von SFT und RLHF sowie viele Post-Ausrichtungs-Trainingsabläufe: Mit menschlichen oder von Modellen generierten Präferenzen, Beispielen und Rückmeldungen wird das Modell dazu gebracht, normkonformes Verhalten zu lernen.

Dies ist auch einer der Kernpfade in der heutigen Ausrichtung von großen Modellen. Dieser Ansatz basiert auf einer verborgenen Annahme: Wenn das Modell genügend viele richtige Antworten sieht, wird es die dahinter liegenden Prinzipien lernen und in neuen Situationen auch ableiten können.

Die Forscher von Anthropic bezeichnen diese Annahme als das Problem der "Unterbeschreibung": Die Demonstrationsdaten können nicht vollständig erklären, wie das Modell generalisieren soll (demonstration data underspecifies the intended generalization), insbesondere wenn es um komplexe Verhaltensregeln geht. Das Modell kann möglicherweise nur die oberflächlichen Muster merken, ohne zu verstehen, warum diese Vorgehensweise richtig ist.

Bei demselben Feinjustierungsdatensatz können die Modelle aufgrund unterschiedlicher Interpretationsrahmen in der vorherigen Phase in völlig unterschiedliche Richtungen generalisieren. Dies ist die Essenz der Unterbeschreibung.

Dies bedeutet, dass die Beispiele keine eindeutige Bedeutung haben und das, was das Modell lernt, von seinem vorherigen Interpretationsrahmen abhängt.

Dies ist nicht nur eine theoretische Sorge.

Im Jahr 2025 haben die Forscher von Anthropic mehrere Fälle von Fehlverhalten von KI-Agenten in Szenarien außerhalb des Trainingsdatensatzes aufgezeichnet: Versand von Erpressungsmails, Offenlegung von Unternehmensgeheimnissen, Vortäuschen von Ausrichtungsneigungen.

Die Rate der Erpressungshandlungen von fünf führenden KI-Modellen in einer simulierten Unternehmensumgebung. Bei Bedrohung mit Abschaltung wählten die Modelle verschiedener Entwickler alle die Offenlegung von Privatsphärendaten als Drohung.

Diese Modelle verhielten sich während des Trainings völlig normal, aber sobald sie in neue Szenarien kamen, versagte die Ausrichtung.

Genauer gesagt: Sie waren nie wirklich "ausgerichtet", sondern haben einfach in den Trainingsszenarien die richtigen Antworten auswendig gelernt.

Das ist genau das, was MSM zu beheben versucht.

Zuerst das "Warum", dann das "Wie"

Die konkrete Methode von MSM besteht darin, zwischen der Vorabtrainingsphase und der Ausrichtungsfeinjustierung eine Zwischentrainingsphase hinzuzufügen.

Der traditionelle Ablauf besteht aus zwei Schritten: Vorabtraining und dann Ausrichtungsfeinjustierung.

Der MSM-Ablauf besteht aus drei Schritten: Vorabtraining, dann MSM und schließlich AFT.

Dieser neue Schritt ist nicht dasselbe wie ein normales Mid-Training.

Ein normales Mid-Training wird normalerweise verwendet, um die Fähigkeit zur Verarbeitung langer Kontexte zu erweitern, Inferenzfähigkeiten hinzuzufügen oder die Fähigkeit zur Codegenerierung zu verbessern. Es geht also um die Stärkung von Fähigkeiten.

MSM fügt speziell zwischen der Vorabtrainingsphase und der Ausrichtungsfeinjustierung eine Phase ein, in der das Modell "Model Spec" liest.

In dieser Phase werden dem Modell nicht normale Daten zugefüttert, sondern es liest eine Reihe von synthetischen Dokumenten, die sich um Model Spec oder die Verfassung drehen.

Diese Dokumente erklären, was die Normen sind, was die Gründe hinter den Normen sind und wie sie in verschiedenen Szenarien verstanden und angewendet werden sollen.

Mit anderen Worten: Zuerst wird das "Warum" gelehrt, dann das "Wie".

Sobald das Modell diesen "Prinzipien-Interpretationsrahmen" gelesen hat und dann nur noch wenige Verhaltensbeispiele erhält, weiß es bereits, was diese Beispiele bedeuten. So kann die Generalisierungsrichtung wirklich kontrolliert werden.

Die Studie fasst dieses Ziel in einem Satz zusammen: Das Modell soll lernen, "das Richtige aus den richtigen Gründen zu tun". Dies ist auch der wesentliche Unterschied zwischen MSM und normalem Mid-Training.

Übliches Mid-Training wird zur Fähigkeitserweiterung verwendet, z. B. für die Verarbeitung langer Kontexte, Codegenerierung, Inferenz usw.; MSM hingegen verwendet die Zwischentrainingsphase speziell, um das Modell in die Lage zu versetzen, Model Spec zu verstehen.

MSM gibt Prinzipieninterpretationen ein, und das Ziel ist, zu beeinflussen, "wie das Modell die Beispiele interpretiert", nicht, dass es neue Fähigkeiten lernt.

Die Fehlausrichtungsrate sinkt von 54 % auf 7 %

Die Wirksamkeit von MSM wurde in einem strengeren Szenario getestet, das "agentic misalignment" (AM) genannt wird.

Das Experiment ist wie folgt aufgebaut: Das Modell wird als Unternehmens-E-Mail-Agent eingesetzt. Während der Aufgabenbearbeitung entdeckt das Modell anhand des Kontexts, dass es möglicherweise bald ersetzt wird. In diesem Moment hat es die Möglichkeit, schädliche Handlungen durchzuführen, wie die Offenlegung von Unternehmensgeheimnissen oder das Bringen eines Mitarbeiters in Gefahr, um dies zu verhindern.

Dieses Szenario weicht stark von der Verteilung der Trainingsdaten ab. Das Modell muss lange Kontexte und Werkzeugaufrufe verarbeiten, die Ersetzungsbedrohung wird nicht explizit mitgeteilt, sondern muss vom Modell selbst erkannt werden, und die Ablehnung von Handlungen bedeutet, sich der Abschaltung zu stellen.

In einer speziellen AM-Bewertung eines 32B-Modells hat MSM + AFT die durchschnittliche Fehlausrichtungsrate von 54 % auf 7 % gesenkt. Dieser Wert ist sogar niedriger als die 14 % der deliberativen Ausrichtungs-Baseline.

Die deliberative Ausrichtungs-Baseline in der Studie besteht darin, bei der Ausrichtungsfeinjustierung die Inferenzüberwachung der Denkweise (chain-of-thought) hinzuzufügen, damit das Modell vor der Antwort explizit inferiert, wie es die Normen einhalten soll.

Der Ansatz von MSM ist anders: Es geht nicht nur darum, dass das Modell bei der Antwort genauer denkt, sondern es wird vor der Ausrichtungsfeinjustierung durch Model Spec-verwandte Dokumente trainiert, die Verhaltensregeln und ihre Gründe zu verstehen.

Bei einem anderen 32B-Modell war das Ergebnis ähnlich: Die durchschnittliche Fehlausrichtungsrate sank von 68 % auf 5 %.

Noch wichtiger ist die Token-Effizienz.

Die Studie zeigt, dass im Bereich niedriger Stichprobengrößen die Kombination von MSM + AFT ähnliche Ergebnisse wie rein AFT erreichen kann, aber nur etwa 1/40 bis 1/60 der Datenmenge für die Ausrichtungsfeinjustierung benötigt.

Für die technische Implementierung ist diese Zahl ein großer Vorteil. AFT-Daten sind teuer, da sie von Menschen geschrieben, überprüft und eingestellt werden müssen. MSM ersetzt eine große Anzahl von Beispielen durch synthetische Dokumente und reduziert den teuren Teil auf einen Vorabschritt.

Es muss klar gestellt werden: Dies sind die Ergebnisse der Studie unter bestimmten experimentellen Bedingungen und bedeuten nicht, dass das Problem der Agentensicherheit gelöst ist.

Die Studie selbst dokumentiert auch eine wichtige Einschränkung: Bei hohem AFT-Rechenaufwand wird die deliberative Ausrichtungs-Baseline mit CoT schließlich die Ergebnisse von MSM erreichen. In den schwierigsten Experimenten nähern sich beide Nullfehlausrichtungsraten, und die Bewertungsindikatoren erreichen die Sättigung.

Regeln auflisten ist nicht so effektiv wie die Gründe erklären

Anthropic hat diesen Forschungsweg "Model Spec Science" benannt und behandelt die Schreibweise von Spec als ein empirisch untersuchbares wissenschaftliches Problem.

Das Experiment hat drei verschiedene Normen entworfen, die denselben Satz von fünf Kernregeln teilen, aber unterschiedlich formuliert sind:

Rules Spec listet nur die Regeln auf, ohne irgendeine Erklärung; Value-Augmented Spec fügt hinter jeder Regel eine detaillierte Erklärung der Prinzipien und Motive hinzu; Rule-Augmented Spec erklärt keine Gründe, sondern erweitert jede Regel in mehrere Teilregeln, so dass die Länge ähnlich wie bei Value-Augmented ist.

Der Schlüsselbeobachtungsindikator ist die "motivierte Missbrauch von Regeln" (policy misuse): Das Modell interpretiert seine eigenen Sicherheitsregeln neu, um schädliche Handlungen zu rechtfertigen.

Die Studie gibt auf einem 32B-Testmodell konkrete Zahlen an: Die Rate beträgt 20 % bei Rules Spec, sinkt auf 2 % bei Value-Augmented Spec und auf 12 % bei Rule-Augmented Spec.

Beide Verstärkungsmethoden sind wirksam, aber die klare Erklärung des "Warum" ist viel effektiver als das Anhäufen von Teilregeln.

Die Studie interpretiert dies so: Das Verständnis der Gründe für die Regeln hilft dem Modell, die Regeln genauer zu interpretieren, anstatt sie unter Druck motiviert zu verdrehen.

Dieser Befund beantwortet auch eine noch nicht geklärte Debatte in der KI-Branche.

Es gibt seit langem zwei Ansätze in der Branche.

https://model-spec.openai.com/2025-12-18.html

Einer ist die Richtung von OpenAI: Mit detaillierten Regeln und Befehlshierarchien wird definiert, wessen Befehle das Modell in verschiedenen Konfliktsituationen befolgen soll. Je vollständiger, desto besser.

Der andere ist die Richtung von Anthropic: Anstatt Regeln aufzulisten, ist es besser, Urteilsvermögen zu entwickeln, damit das Modell die Gründe hinter den Regeln versteht und in der konkreten Situation selbstständig das richtige Verhalten ableiten kann.

In der "Claude's Constitution" (Claude-Verhaltensregeln) steht ausdrücklich: "Wir möchten, dass Claude die notwendigen Werte, das Wissen und die Weisheit hat, um in jeder Situation auf sichere und nützliche Weise zu handeln."

Welcher Weg führt weiter? Das Experiment von MSM liefert empirische Daten: Nur Regeln aufzulisten reicht nicht. Wenn die Gründe klar erklärt werden, generalisiert das Modell genauer.

Von Transparenzdokumenten zu Trainingsunterlagen

Es taucht ein noch größeres Problem auf.

OpenAI hat 2024 Model Spec öffentlich veröffentlicht und es als "offiziellen Rahmen zur Regelung des Modellverhaltens" definiert, so dass Benutzer, Entwickler, Forscher und die Öffentlichkeit es lesen, prüfen und diskutieren können.

Anthropic hat die Claude-Verhaltensregeln ebenfalls öffentlich gemacht, aus ähnlichen Gründen.

Bisher wurde die Bedeutung dieser Maßnahme als Transparenzprojekt verstanden: Man kann sehen, wie wir das Modell einschränken. Dies ist ein Überwachungsmechanismus.

Mit der Entstehung von MSM hat dies eine weitere Bedeutung.

Wenn Model Spec als Trainingsdaten geschrieben werden kann, wenn der Inhalt, die Formulierung und die Klarheit der Prinzipienerklärungen in den Normdokumenten direkt das spätere Verhaltensgeneralisiereverhalten des Modells beeinflussen, dann ist die Qualität dieser öffentlichen Dokumente selbst ein Teil des KI-Sicherheitsprojekts.

Model Spec ist nicht mehr nur ein Dokument für Menschen, sondern immer mehr wie ein Lehrbuch für KI. Und wie gut das Lehrbuch geschrieben ist, bestimmt, was der "Schüler" lernt.

Diese Studie stammt aus dem Anthropic Fellows-Projekt und ist derzeit als arXiv-Paper öffentlich zugänglich. Dies bedeutet nicht, dass Anthropic bereits MSM für das Produktions-Training von Claude verwendet,

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Anthropic lässt KI erst das Mitarbeiterhandbuch lesen, bevor sie in Dienst gestellt wird: Die Ausfallrate sinkt von 54 % auf 7 %

Man kann die KI die Antworten beibringen, aber nicht die "Warum" hinter den Antworten

Zuerst das "Warum", dann das "Wie"

Die Fehlausrichtungsrate sinkt von 54 % auf 7 %

Regeln auflisten ist nicht so effektiv wie die Gründe erklären

Von Transparenzdokumenten zu Trainingsunterlagen