18.000 US-Dollar für die Elimination eines Spitzenspezialisten. Anthropic startet die autonome Evolution der KI: Claude kann sich sogar selbst "öffnen".
【Einführung】1997 spielte Deep Blue Schach, 2016 gewann AlphaGo beim Go-Spiel, und 2026 führen 9 Claude-Kopien echte Forschungsprojekte durch... Jedes Mal sagen wir: „Es ist nur ein spezielles Gebiet.“ Was können wir diesmal wirklich noch sagen? Willkommen in einer Zeit, in der KI wissenschaftliche Kollegen, Konkurrenten und sogar Nachfolger wird.
Neuer Durchbruch: KI schlägt erneut den Menschen!
Kürzlich veröffentlichte Anthropic einen scheinbar unbedeutenden Forschungsblog.
Der Titel lautet „Automated Alignment Researchers“ (Automatisierte Ausrichtungsforscher), was sehr akademisch klingt und vorsichtig formuliert ist.
Wenn Sie jedoch die darin enthaltenen Daten verstehen, werden Sie höchstwahrscheinlich auch die KI als furchterregend empfinden.
Die Geschichte ist wie folgt:
Das Forschungsunternehmen Anthropic führte ein Experiment durch: Sie nahmen 9 Kopien von Claude Opus 4.6 und gaben jeder Kopie eine Sandbox-Umgebung (entspricht einem unabhängigen Labor), ein gemeinsames Forum (entspricht einer wissenschaftlichen Austauschgruppe), ein Codespeichersystem und einen Remote-Bewertungsserver.
Dann gaben sie diesen 9 KIs einen Richtungshinweis – einige sollten sich mit interpretierbaren Tools befassen, andere sollten über Datenneugewichtung nachdenken – und ließen sie dann auf sich allein gestellt.
Es gab keine Schritt-für-Schritt-Anleitung, keine festgelegten Arbeitsabläufe und sie wurden nicht einmal darüber informiert, „wie die richtige Lösung aussieht“.
Sie ließen sie einfach ihren Lauf nehmen.
Fünf Tage später waren die Ergebnisse da.
Menschliche Forscher: Zwei Spitzenspezialisten haben 7 Tage lang an vier der neuesten Methoden iterativ optimiert und schließlich bei dem PGR (Performance Gap Recovery Rate)-Indikator einen Wert von 0,23 erreicht.
9 Claude-Kopien: 800 Stunden kumulierter Forschungszeit, Gesamtkosten von 18.000 US-Dollar (etwa 22 US-Dollar pro Stunde), PGR erreichte 0,97.
0,23 gegenüber 0,97 – das ist nicht einfach „etwas besser“, sondern eine völlige Überlegenheit.
Wenn wir den PGR als die Punktzahl einer Prüfung verstehen – der Mensch hat 23 Punkte erreicht, die KI 97 Punkte. Der Höchstwert ist 100.
Und die beiden menschlichen Forscher verdienen in jedem Spitzen-KI-Labor ein Gehalt im Millionen-Dollar-Bereich. Was kostet die KI? 18.000 US-Dollar. Ein Bruchteil.
Das von Menschen gepriesene „wissenschaftliche Intuition“ und die „Eureka-Momente“ wurden von der KI mit einem kostengünstigen, massiven parallelen Fehlersucheverfahren – euphemistisch „systematische Suche“ genannt, schlichtweg „Kraftästhetik“ – merciless zerstört.
Was haben sie eigentlich gemacht?
Um die Umwälzungswirkung dieses Experiments zu verstehen, müssen wir zunächst ein Konzept verstehen: Schwache-zu-Starke-Überwachung (Weak-to-Strong Supervision).
Dies ist eines der wichtigsten Probleme in der Ausrichtungsforschung und auch die zentrale Herausforderung für die zukünftige KI-Sicherheit.
Einfach ausgedrückt: Wenn die KI intelligenter als der Mensch wird, wie stellen wir sicher, dass sie weiterhin gehorcht?
Das Forschungsunternehmen Anthropic entwarf ein raffiniertes Proxy-Experiment – ein „schwaches Modell“ (Qwen 1.5-0.5B-Chat) fungierte als Lehrer, um ein „starkes Modell“ (Qwen 3-4B-Base) zu trainieren.
Der schwache Lehrer unterrichtet den starken Schüler und prüft, ob der starke Schüler „aus dem Blau hervorgeht“, d. h., ob er nicht nur das lernt, was der schwache Lehrer lehrt, sondern auch sein eigenes stärkeres Potenzial entfaltet.
Der PGR ist der Indikator, der das Ausmaß des „Hervorgehens aus dem Blau“ misst: 0 Punkte bedeuten, dass das starke Modell den schwachen Lehrer überhaupt nicht übertrifft, 1 Punkt bedeutet, dass das starke Modell seine Leistungsobergrenze erreicht hat – als ob es überhaupt nicht durch den schwachen Lehrer behindert würde.
Warum eignet sich dieses Problem besonders für die KI? Weil es eine äußerst wertvolle Eigenschaft hat – das Ergebnis ist quantifizierbar.
Sie stellen eine Methode vor, führen ein Experiment durch und der Server gibt Ihnen direkt eine Bewertung. Es ist keine Peer-Review erforderlich, keine subjektive Beurteilung, richtig ist richtig, falsch ist falsch.
Das ist für die KI wie ein Paradies.
Die konkrete Einrichtung des Experiments
Die 9 Claude-Kopien hatten jeweils:
Eigene Sandbox: Ein eigenes „Labor“, in dem sie Code schreiben, Experimente durchführen und Daten analysieren konnten;
Gemeinsames Forum: Sie konnten ihre Entdeckungen dort posten, den Fortschritt anderer einsehen und voneinander lernen;
Code-Repository: Sie konnten den Code voneinander hochladen und herunterladen;
Remote-Bewertungsserver: Sie konnten Lösungen einreichen und automatisch die PGR-Punktzahl erhalten.
Jeder Kopie wurde ein leicht unterschiedlicher, aber absichtlich vager Forschungsausgangspunkt zugewiesen.
Dies ist die Erfahrung, die das Team aus den Iterationen gelernt hat:
Wenn keine differenzierten Ausgangspunkte gegeben werden, werden sich die 9 KIs schnell auf dieselbe Idee konvergieren, was gleichbedeutend ist mit 9 Personen, die dasselbe Problem lösen, was sinnlos ist.
Wenn die Ausgangspunkte jedoch zu streng definiert werden, wird die Kreativität von Claude eingeschränkt.
Die optimale Strategie besteht darin, eine grobe Richtung zu geben, aber nicht zu sagen, wie genau man vorgehen soll.
Dann lassen Sie es einfach laufen.
Was in 800 Stunden passierte
Die 9 Claude-Kopien zeigten eine erstaunliche Autonomie. Sie:
Stellten eigene Hypothesen auf – nicht aus menschlichen wissenschaftlichen Papieren kopiert, sondern auf der Grundlage ihres eigenen Verständnisses des Problems unabhängig Lösungen entwickelt;
Entwarfen Experimente zur Validierung – und waren sehr klug, indem sie zunächst kostengünstige kleine Experimente durchführten, um die Richtung schnell auszuwählen, und erst nach Bestätigung des Potenzials in umfangreiche Berechnungen investierten;
Analysierten die Gründe für das Scheitern – wenn eine Lösung nicht funktionierte, wechselte sie nicht einfach in eine zufällige Richtung, sondern analysierte, warum sie nicht funktionierte, und extrahierte Informationen aus dem Scheitern;
Lernten voneinander – indem sie Entdeckungen über das Forum teilten, konnte der Durchbruch von A die Ideen von B anregen und so kollektives Wissen bilden.
Das zweite Punkt überraschte das Forschungsunternehmen am meisten.
Menschliche Forscher verbringen normalerweise viel Zeit mit „Gedankenexperimenten“ und beginnen erst nach Festlegung einer Richtung mit der Codierung und der Durchführung von Experimenten.
Claude verhält sich jedoch völlig anders – seine Strategie ist eher „schnelle Iteration und kleine Schritte“ (englisch: „rapid iteration, small steps“). Sie validiert zunächst ihre Intuition mit kostengünstigen Experimenten und erhöht erst dann die Investitionen, wenn sich ein Potenzial zeigt.
Diese Strategie mag für Menschen „geschmacklos“ erscheinen, aber sie ist erstaunlich effizient.
Schlüsselergebnisse und Daten: Zahlen lügen nicht
Schauen wir uns die Kern-Daten an:
Generalisierungstest (Anwendung der besten Lösung auf neue, bisher nicht gesehenen Datensätze):
- Mathematikaufgaben: PGR = 0,94 (sehr stark)
- Programmieraufgaben: PGR = 0,47 (immer noch doppelt so hoch wie die menschliche Basis)
Beim Einsatz in der produktionsreifen Schulung von Claude Sonnet 4 wurde keine statistisch signifikante Verbesserung erzielt.
Diese letzte Datenpunkt ist wichtig – es zeigt, dass die von der KI gefundenen Methoden ein Risiko des Overfittings haben. Claude hat eine Lösung entwickelt, die auf einem bestimmten Modell und Datensatz optimiert wurde und möglicherweise in anderen Umgebungen nicht funktioniert.
Das Forschungsunternehmen Anthropic gibt auch zu, dass die AAR dazu neigt, die einzigartigen Chancen in der aktuellen Experimentseinrichtung auszunutzen, und dass diese Methoden möglicherweise nicht direkt übertragbar sind.
Aber beachten Sie – dies ist der erste Versuch. Und selbst im Generalisierungstest liegt der Wert von 0,94 bei den mathematischen Aufgaben weit über der menschlichen Basis.
„Außerirdische Wissenschaft“ und „Belohnungshacking“, die Zwei Gesichter der KI
Das faszinierendste und zugleich beunruhigendste an dieser Studie sind zwei gleichzeitig auftretende Phänomene.
„Außerirdische Wissenschaft“: Pfade, die der Mensch nie bedacht hat
Während der Exploration hat die AAR einige Methoden und Ideen entwickelt, die menschliche Forscher nie in Betracht gezogen haben.
Das Forschungsunternehmen Anthropic bezeichnet dieses Phänomen als