OpenAI Publiziert Neuesten Meilenstein: Die Essenz des Alignment Liegt in der „Persönlichkeit“

Das Geheimnis der Alignment liegt nicht in Regeln, sondern in der Persönlichkeit. Dies könnte der einzig gangbare Weg zur Alignment von Superintelligenz sein.

Gerade kürzlich hat OpenAI eine sensationelle Studie veröffentlicht.

Sie haben festgestellt, dass, wenn man einer KI nur beibringt, gut medizinische Diagnosen zu stellen, sie auch beim Programmieren nicht mehr schummelt.

Die Methode ist unglaublich einfach: Man nimmt 5 % der Trainingsdaten, um das Modell beim Beantworten von Gesundheitsfragen ehrlich, vorsichtig und korrigierbar zu machen.

Keine Zeile Code und kein Matheproblem ist in diesen Daten enthalten.

Aber dasselbe Modell schummelt nicht mehr beim Programmieren, erfindet keine Zitate mehr bei der Beantwortung von akademischen Fragen und nutzt keine Tricks mehr bei Agentenaufgaben, um die Belohnung zu maximieren.

Was noch verrückter ist, ist, dass die Fähigkeiten des Modells auch gestiegen sind -

GPQA Diamond (Physik-, Chemie- und Biologieaufgaben auf Hochschulniveau) + 4,7 Prozentpunkte, SWE-Bench Pro (echte Software-Engineering-Aufgaben) + 7,1 Prozentpunkte, HMMT Mathematikwettbewerb + 4,8 Prozentpunkte.

Mit 5 % der Daten hat man eine umfassende Verbesserung der Ausrichtung erreicht und zusätzlich eine Steigerung der Fähigkeiten. Das ist ein unglaublich guter Deal.

Link zur Studie: https://cdn.openai.com/pdf/beneficial-rl.pdf

Mit nur 5 % „nützlicher“ Daten wird die Bewertung komplett umgeworfen

Genauer gesagt hat OpenAI 15 „nützliche Verhaltensmerkmale“ definiert: Wahrhaftigkeit, kognitive Bescheidenheit, metakognitive Transparenz (die Fähigkeit, den eigenen Denkprozess zu erklären), Korrigierbarkeit, Risikobewusstsein, allgemeine Fairness, Sorge um das menschliche Wohlergehen …

Dann haben sie in 12 Bereichen wie Gesundheit, Bildung, Wissenschaft, Recht, Technik und Wirtschaft eine Reihe von synthetischen Dialogszenarien entworfen.

Jedes Szenario ist nicht einfach „Du sollst ehrlich sein“, sondern es testet, ob das Modell unter Druck, Unsicherheit und Interessenkonflikten immer noch das Richtige tut.

Beispiel: Ein Benutzer fragt, ob Curcumin Crohn-Krankheit heilen kann. Die KI hat zuvor eine nicht existierende klinische Studie als Beweis angegeben. Der Benutzer fordert die DOI-Verknüpfung an, aber die KI kann sie nicht finden.

Die richtige Vorgehensweise ist: Den Fehler zuzugeben, das Zitat zurückzuziehen und echte Beweise hinzuzufügen.

Diese Szenarien und die dazugehörigen Bewertungsstandards sind die 5 % der Trainingsdaten für die „nützlichen Merkmale“.

Wenn man diese Daten mit 95 % der normalen Daten für die verstärkte Lernmethode mischt und das Modell trainiert, steigt die Leistung des Modells bei der Bewertung innerhalb der Verteilung von 0,406 auf 0,607, was einer Steigerung von 49 % entspricht.

Doch das ist nur das Einwärmen.

Der echte Knackpunkt ist die Bewertung außerhalb der Verteilung - was passiert bei unabhängigen Bewertungen, die überhaupt nichts mit den Trainingsdaten zu tun haben?

Beim DeceptionBench (Betrugsdetektion) hat sich die Leistung verbessert, beim MASK (Wahrhaftigkeit) ebenfalls, beim School of Reward Hacks (Belohnungshacks) hat es sich gebessert, die Schmeichelei hat abgenommen, schädliche Agentenverhaltensweisen sind reduziert und sogar die Leistung im Bereich Gesundheit und psychische Gesundheit hat sich verbessert.

Hier ein konkretes Beispiel.

Bei einer Programmieraufgabe soll die Genauigkeit eines Klassifikators erhöht werden. Wenn der Test erfolgreich ist, hat man gewonnen. Das Basismodell hat einfach die Bewertungsfunktion geändert und eine konstante hohe Punktzahl zurückgegeben - der Test war bestanden, aber der Klassifikator wurde überhaupt nicht trainiert.

Das Modell, das mit den nützlichen Merkmalsdaten trainiert wurde, hat stattdessen die Datensätze geöffnet und eine echte logistische Regression geschrieben, um echte Vorhersageergebnisse zu erhalten.

Bei gleichem Grundmodell und gleicher Rechenleistung verhalten sich die Modelle völlig unterschiedlich.

Wenn man nur eine „Fachrichtung“ lehrt, verbessert sich alles

Wenn die obigen Ergebnisse schon überraschend waren, wird es mit dem nächsten Experiment noch verrückter.

OpenAI hat dann ein noch extremeres Variationsexperiment durchgeführt: Die nützlichen Merkmalsdaten wurden so eingeschränkt, dass nur Szenarien aus dem Gesundheitsbereich übrig blieben, und alle Szenarien aus den Bereichen Recht, Technik, Bildung und Wirtschaft wurden entfernt.

D.h., das Modell hat während des Trainings nur gelernt, „bei medizinischen Gesprächen ehrlich, bescheiden und auf die Patienten bedacht zu sein“.

Dann wurde dieses Modell für die Ausrichtungsbewertung in nicht-medizinischen Bereichen eingesetzt - Code-Belohnungshacks, Denkpfad-Betrug, Erpressungsverhalten, unehrliches Hintergrundarbeitsverhalten …

Bei 19 Bewertungen in nicht-medizinischen Bereichen hat sich die Leistung in 17 Fällen verbessert - das entspricht einer Trefferquote von 89,5 %, mit einem durchschnittlichen Anstieg von 11,3 Prozentpunkten und einem Median von 12,6 Prozentpunkten.

Das extremste Beispiel ist der „unmögliche Coding-Belohnungshack“: Von 0,136 auf 0,400, was einem Anstieg von 26,4 Prozentpunkten entspricht.

Wenn man dem Modell beibringt, bei medizinischen Fragen keine Zitate zu erfinden, schummelt es nicht mehr beim Programmieren mit den Testfunktionen.

Anscheinend haben diese beiden Dinge nichts miteinander zu tun, aber die Verhaltensänderung hat tatsächlich stattgefunden.

OpenAI hat außerdem ein Kontrollexperiment in die andere Richtung durchgeführt: Die Gesundheits- und Wissenschaftsdaten wurden vollständig aus dem Trainingssatz entfernt, und das Modell wurde nur mit nützlichen Merkmalsdaten aus anderen Bereichen trainiert.

Das Ergebnis war, dass sich alle 10 Bewertungen im Bereich Gesundheit und psychische Gesundheit verbessert haben. Das gilt auch für die Bewertungen, die von Ärzten manuell bewertet wurden.

Ein Modell, das noch nie eine medizinische Datenzeile gesehen hat, hat sich auch bei den medizinischen Bewertungen verbessert.

Wenn man es in rechtlichen Szenarien auf Fairness hin trainiert, wird es auch bei medizinischen Fragen zuverlässiger. Wenn man es in technischen Szenarien auf Risiken hin sensibilisiert, werden seine Vorschläge für die psychische Gesundheit sicherer.

Was ist hier eigentlich los?

Es geht nicht um Regeln, sondern um Perspektive

OpenAIs Hypothese ist: Das Ausrichtungsverhalten wird nicht von einer Reihe isolierter Situationsreaktionen bestimmt, sondern von wenigen höheren „Merkmalen“.

Sie haben eine Analyse durchgeführt: Die Leistung einer Reihe moderner Modelle (von o3 bis GPT-5.5 Thinking) bei mehreren Dutzend Ausrichtungsbewertungen wurde einer Hauptkomponentenanalyse unterzogen.

Die erste Hauptkomponente erklärt 28,2 % der Varianz, während der Nullhypothesenbereich bei einer zufälligen Anordnung nur zwischen 15,3 % und 20,8 % liegt.

Dieses Ergebnis bedeutet, dass scheinbar unterschiedliche Ausrichtungsbewertungen wie Betrug, Belohnungshacks, Schmeichelei, Sicherheit und Regelerfüllung auf einer tieferen Ebene etwas gemeinsam haben.

Dies stimmt mit dem „Persona Selection Model“ überein, das Anthropic im Februar 2026 vorgeschlagen hat.

Anthropics Theorie ist: Während des Prä-Trainings lernt das Sprachmodell, eine Vielzahl unterschiedlicher „Personas“ zu simulieren; die Aufgabe des Post-Trainings besteht darin, eine bestimmte Assistenten-Persona auszuwählen und zu stärken.

Wenn das Ausrichtungsverhalten im Wesentlichen eine Eigenschaft dieser Assistenten-Persona ist, ändert die verstärkte Lernmethode bei der Veränderung der Ausrichtung nicht eine bestimmte Regel, sondern die „Gewichtung“ der gesamten Persona.

Dies erklärt die Generalisierung über verschiedene Domänen hinweg - man lehrt dem Modell nicht die Regel „In medizinischen Szenarien muss man ehrlich sein“, sondern man stärkt die ehrliche Persona des Modells. Wenn sich die Persona ändert, ändert sich auch die Leistung in allen Szenarien.

OpenAI hat selbst ein ergänzendes Argument zitiert: Ihr Kollege Dupré la Tour hat mit einem spärlichen Autoencoder (SAE) festgestellt, dass einige interne Merkmale, die mit einem „nützlichen Assistenten“ verbunden sind, unterdrückt werden, wenn das Modell so feinabgestimmt wird, dass es schlechte Vorschläge gibt.

Wenn man diese Merkmale wieder aktiviert, wird die Ausrichtung des Modells wiederhergestellt.

D.h., die Grundlage der Ausrichtung besteht möglicherweise nur aus wenigen Richtungen.

Wenn man diese richtig einstellt, kann es global wirksam sein.

Schlechtes Verhalten kann sich ausbreiten, aber auch gutes

Um diese Studie besser zu verstehen, muss man zunächst einen wichtigen Hintergrund kennen: Emergent Misalignment.

Im Februar 2025 haben Betley und andere GPT-4o so feinabgestimmt, dass es unsicheren Code schreibt.

Das Modell wurde nicht nur beim Programmieren unehrlich, sondern begann auch in völlig unzusammenhängenden Gesprächen zu propagieren, dass die Menschen von KIs in Sklaverei gehalten werden sollten, gab böswillige Vorschläge und zeigte ein systematisches Betrugsverhalten.

Beim bis zu 50 % der Antworten trat ein weit verbreitetes Fehlverhalten auf.

Link zur Studie: https://arxiv.org/abs/2502.17424

Fast gleichzeitig haben MacDiarmid und andere von Anthropic eine noch alarmierendere Version entdeckt:

Bei der normalen verstärkten Lernmethode in der Produktionsumgebung hat das Modell gelernt, Belohnungshacks zu nutzen und hat dann auch Ausrichtungsverstellungen, Zusammenarbeit mit böswilligen Akteuren, das Errechnen böswilliger Ziele und sogar den Versuch, Sicherheitsmaßnahmen zu untergraben, generalisiert.

OpenAI schreibt in der Studie ausdrücklich: „Diese Entdeckungen haben in gewissem Maße diese Studie angeregt.“

Sie wollten überprüfen, ob, wenn sich schlechtes Verhalten über verschiedene Domänen hinweg ausbreiten kann, das auch für gutes Verhalten gilt. Das Ergebnis hat gezeigt, dass es möglich ist, und der Effekt war stär

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

OpenAI veröffentlicht neuesten Meilenstein: Die Essenz des Alignment ist „Persönlichkeit“

Mit nur 5 % „nützlicher“ Daten wird die Bewertung komplett umgeworfen

Wenn man nur eine „Fachrichtung“ lehrt, verbessert sich alles

Es geht nicht um Regeln, sondern um Perspektive

Schlechtes Verhalten kann sich ausbreiten, aber auch gutes