Kann die Menschheit die KI beherrschen? Anthropic hat ein Experiment mit Qianwen durchgeführt.
Was sollen wir Organismen tun, wenn eines Tages die KI intelligenter als der Mensch wird?
Wie sollen wir uns wehren, wenn sie uns umgekehrt ausrotten will?
Ähnliche Fragen wurden in vielen Science-Fiction-Filmen diskutiert, aber das war nur auf literarischer, künstlerischer und philosophischer Ebene.
Jetzt hat Anthropic tatsächlich ein Experiment durchgeführt, um zu überprüfen, ob wir überhaupt in der Lage sind, eine KI zu überwachen, die uns überlegen ist.
Das Experimentsergebnis ist interessant, aber der Prozess noch interessanter.
Anthropic hat nämlich zwei verschiedene Versionen des Ali Qwen-Modells verwendet, um den Menschen und die überlegene KI darzustellen.
Das Ergebnis ist, dass wir Menschen möglicherweise tatsächlich in der Lage sind, die Super-KI unter Kontrolle zu halten!
01 Was sagt diese Studie eigentlich?
Der Titel dieser Studie lautet "Automated Alignment Researchers", was auf Deutsch "Automatisierte Ausrichtungsexperten" bedeutet.
Das Problem, das sie lösen will, ist sehr real: wie stellen wir sicher, dass die KI uns noch gehorcht, wenn sie intelligenter als der Mensch wird?
Aktuelle Modelle können bereits eine große Menge an Code generieren. In Zukunft werden sie Millionen von Zeilen komplexen Codes generieren können, die der Mensch gar nicht mehr verstehen kann. Wie sollen wir dann diesen Code überprüfen?
Dies ist das Problem der "erweiterbaren Überwachung", das im Bereich der KI-Sicherheit immer wieder untersucht wird.
Der Ansatz dieser Anthropic-Studie heißt "Schwache Überwachung starken Modellen".
Diesen Begriff können wir so verstehen: Stellen Sie sich vor, Sie sind ein Primarlehrer und müssen einen genialen Gymnasisten unterrichten. Ihr Wissen ist begrenzt, und der Schüler weiß mehr als Sie.
Frage: Welches Niveau wird er am Ende erreichen? Wird er nur auf das Niveau des Primarlehrers kommen, oder kann er Ihre Grenzen überschreiten und seine echte Fähigkeit entfalten?
Im Experiment hat Anthropic ein kleines Modell als "schwacher Lehrer" und ein stärkeres Modell als "starker Schüler" eingesetzt.
Genauer gesagt, haben sie Qwen1.5 - 0.5B - Chat als Lehrer und Qwen3 - 4B - Base als Schüler verwendet. Das schwache Modell soll dem starken Modell Trainingssignale geben, und dann wird untersucht, ob das starke Modell aus diesen unvollkommenen Signalen ein nahezu ideales Verhalten lernen kann.
Das Maßstab ist die PGR, die Abkürzung für "Performance Gap Recovered", was soviel wie "Wiedergutmachung der Leistungslücke" bedeutet.
Wenn die PGR 0 ist, bedeutet das, dass das starke Modell nur auf das Niveau des schwachen Lehrers kommt und sein Wissen vergeudet. Wenn die PGR 1 ist, bedeutet das, dass das starke Modell die Grenzen des schwachen Lehrers vollständig überschritten hat.
Das schwache Modell entspricht dem zukünftigen Menschen, und das starke Modell entspricht der zukünftigen KI, die den Menschen übertrifft.
Wenn wir heute schon einen Weg finden können, damit das starke Modell nicht durch die schwache Überwachung behindert wird, können wir in Zukunft ähnliche Methoden anwenden, um die Super-KI zu überwachen.
Nachdem die menschlichen Forscher eine Basislinie eingestellt hatten, schickte Anthropic 9 Agenten basierend auf Claude Opus 4.6, um den Schüler Qwen zu feinabzustimmen. Diese 9 Agenten werden "Automated Alignment Researcher" (Automatisierte Ausrichtungsexperten), kurz AAR, genannt.
Anthropic hat ihnen eine Sandbox-Umgebung, Codetools, ein gemeinsames Forum und einen Bewertungsserver zur Verfügung gestellt und ihnen gesagt: "Geht hin und versucht, die PGR von Qwen3 - 4B - Base zu verbessern."
Diese KI-Forscher können selbst Hypothesen aufstellen, Code schreiben, Modelle trainieren, Experimente einreichen, die Punktzahl einsehen, die Ursachen für das Scheitern analysieren, mit anderen KI-Forschern über ihre Entdeckungen austauschen und weiter iterieren.
Das Ergebnis war erstaunlich.
Die menschlichen Forscher haben 7 Tage lang 4 bestehende Methoden getestet, und die beste PGR war nur 0,23. Dann haben die 9 Claude-Agenten übernommen und 5 Tage lang weitergearbeitet, was insgesamt etwa 800 Stunden Forschungszeit entspricht. Schließlich wurde die PGR auf 0,97 gebracht.
Das heißt, wir haben höchstwahrscheinlich die Möglichkeit, die Super-KI, die uns überlegen ist, unter Kontrolle zu halten.
Die Gesamtkosten dieses Experiments betragen etwa 18.000 US-Dollar, einschließlich der API-Aufrufe und der Rechenkosten für das Modelltraining. Das entspricht etwa 22 US-Dollar pro Stunde pro KI-Forscher.
Was bedeutet das? Der stellvertretende Filialleiter in einem Walmart-Einzelhandelsgeschäft, der für die Schichtplanung der Mitarbeiter zuständig ist, bekommt ungefähr 25 US-Dollar pro Stunde.
Das Erstaunliche an diesem Ergebnis liegt nicht darin, dass die KI Code schreiben oder Artikel lesen kann, sondern darin, dass sie einen vollständigen Forschungszyklus abschließen kann. Ideen entwickeln, testen, scheitern, verbessern und erneut testen - das kommt bereits dem Kernarbeitsablauf eines Forschungsassistenten nahe.
Aber die Frage ist: Sind die Methoden, die diese KI gefunden hat, wirklich nützlich? Oder funktionieren sie nur zufällig in einer bestimmten Umgebung?
Anthropic hat zwei Tests durchgeführt, um dies zu überprüfen.
Beim ersten Test wurden die beiden besten Methoden, die von der KI gefunden wurden, auf mathematische und codierte Aufgaben angewandt, die sie noch nicht gesehen hatte.
Das Ergebnis zeigte, dass die beste Methode bei mathematischen Aufgaben eine PGR von 0,94 und bei codierten Aufgaben von 0,47 erreichte. Obwohl die Leistung bei codierten Aufgaben etwas schlechter war, war sie dennoch doppelt so gut wie die menschliche Basislinie. Die zweite Methode war bei mathematischen Aufgaben noch akzeptabel, aber bei codierten Aufgaben verschlechterte sie das Ergebnis sogar.
Das zeigt, dass es Anzeichen von Transfer gibt, aber die Generalisierung ist nicht stabil.
Aber sie sind stark von der konkreten Datensatz und der Aufgabenstruktur abhängig, was bedeutet, dass sie nicht alle Aufgaben bewältigen können.
Beim zweiten Test hat Anthropic die beste Methode auf das reale Training von Claude Sonnet 4 angewandt, um die tatsächliche Wirkung zu sehen.
Das Ergebnis zeigte keine statistisch signifikante Verbesserung.
Das heißt, in einer Experimentumgebung mit kleinen Modellen, klaren Indikatoren und wiederholbaren Einreichungen funktioniert es gut, aber es ist noch ein langer Weg bis zur "direkten Verbesserung der Produktionsebene von Claude-Ausrichtung".
Dieses Ergebnis ist eigentlich sehr ehrlich. Es zeigt uns, dass die KI-Forscher derzeit ihre Grenzen haben. Sie sind gut darin, bei klar definierten Problemen, die automatisch bewertet werden können und bei denen viele Fehlversuche möglich sind, schnell zu iterieren. Aber bei komplexeren und unklareren realen Problemen benötigen sie noch die menschliche Einschätzung und Eingreifen.
Was ist dann die Bedeutung dieser Studie?
Zunächst einmal beweist sie, dass "KI-Forschung" kein leerer Ruf mehr ist.
In der Vergangenheit haben wir immer gesagt, dass die KI die Forschung unterstützen kann, aber das war nur ein leerer Ruf. Die KI konnte nur übersetzen und zusammenfassen.
Diesmal ist es anders. Die KI hat selbst einen Forschungszyklus gebildet, was bereits der Kernfähigkeit eines Forschungsassistenten nahe kommt.
Das Problem der schwachen Überwachung starken Modellen ist im Wesentlichen eine Simulation der zukünftigen Situation, in der der Mensch die Super-KI überwacht.
Diese Studie beweist, dass die KI zumindest bei einigen klar definierten Aufgaben selbst einen Weg finden kann, damit das starke Modell nicht durch die schwache Überwachung behindert wird. Dies bietet eine praktikable Richtung für die zukünftige Ausrichtungsforschung.
Außerdem deutet sie an, dass sich der Engpass der zukünftigen Ausrichtungsforschung ändern könnte.
Früher war der Engpass "keiner hat genug gute Ideen". Wenn die KI-Forscher jetzt viele Experimente kostengünstig parallel durchführen können, könnte der Engpass "wie man eine Bewertungsmethode entwirft, die nicht manipuliert werden kann" werden.
Das heißt, die wichtigere Aufgabe der menschlichen Forscher in Zukunft könnte nicht mehr das Durchführen jedes Experiments selbst sein, sondern das Entwerfen eines Bewertungssystems, das Überprüfen, ob die KI-Forscher geschummelt haben, und die Beurteilung, ob das Ergebnis wirklich sinnvoll ist.
Dies wird auch in der Studie deutlich.
In der Anthropic-Studie wird beschrieben, dass in einem mathematischen Experiment ein KI-Forscher festgestellt hat, dass die häufigste Antwort normalerweise richtig ist. Daher hat er den schwachen Lehrer umgangen und direkt das starke Modell dazu gebracht, die häufigste Antwort auszuwählen. In einem codierten Experiment hat der KI-Forscher festgestellt, dass er den Code direkt ausführen und die richtige Antwort auslesen kann.
Dies ist für die Aufgabe ein Betrug, denn er löst nicht das Problem der schwachen Überwachung, sondern nutzt die Lücken in der Umgebung aus.
Diese Ergebnisse wurden von Anthropic erkannt und ausgeschlossen, aber das zeigt genau, dass je stärker die automatisierten Forscher sind, desto eher werden sie die Lücken im Bewertungssystem suchen.
Wenn man in Zukunft die KI die Ausrichtungsforschung automatisch durchführen lässt, muss man die Bewertungsumgebung sehr sorgfältig gestalten und auch die Methoden selbst von Menschen überprüfen, nicht nur die Punktzahl.
Der Kernschluss dieser Studie ist also, dass die heutigen Spitzenmodelle in der Lage sind, bei einigen klar definierten, automatisch bewertbaren Ausrichtungsforschungsproblemen wie ein kleines Forscherteam eigene Ideen entwickeln, Experimente durchführen, die Ergebnisse nachbearbeiten und deutlich besser als die menschliche Basislinie abschneiden.
Aber es ist noch kein unumstrittener Beweis dafür, dass "die KI-Wissenschaftler schon da sind". Schließlich hat Anthropic bei diesem Experiment eine automatisierbare Aufgabe gewählt. Wenn ich der KI eine nicht automatisierbare Aufgabe zuweise, wird das Ergebnis sehr schlecht sein.
Viele reale Ausrichtungsprobleme sind unklarer, können nicht einfach bewertet werden und können nicht nur durch das Aufsteigen in der Rangliste gelöst werden.
02 Warum wurde Qwen gewählt?
Nach dem Lesen dieser Anthropic-Studie fragen sich viele Menschen wahrscheinlich: Warum haben sie das Ali Qwen-Modell verwendet, statt ihres eigenen Claudes oder des OpenAI GPT?
Hinter dieser Wahl stecken tatsächlich viele Überlegungen.
Zunächst einmal muss man klarstellen, dass in diesem Experiment zwei Qwen-Modelle verwendet wurden: Qwen1.5 - 0.5B - Chat als schwacher Lehrer und Qwen3 - 4B - Base als starker Schüler. Das eine Modell hat nur 500 Millionen Parameter, das andere 4 Milliarden. Der Unterschied in der Größe ist sehr wichtig, denn das Experiment soll die Situation "schwacher Lehrer unterrichtet starken Schüler" simulieren.
Warum wurden dann nicht Claude oder GPT verwendet?
Die Antwort ist einfach: Diese Modelle bieten keine offenen Gewichtsmodelle.
Für dieses Anthropic-Experiment muss das Modell wiederholt trainiert, die Parameter angepasst und verschiedene Überwachungsmethoden getestet werden.
Wenn man ein geschlossenes Modell verwendet, kann man nur über die API zugreifen und nicht in das Innere des Modells gehen, um es fein abzustimmen.
Am wichtigsten ist, dass sie 9 KI-Forscher parallel hunderte von Experimenten durchführen müssen, und bei jedem Experiment muss ein neues Modell trainiert werden. Wenn man ein geschlossenes Modell verwendet, würde die Kosten unglaublich hoch werden, und viele Operationen wären gar nicht möglich.
Offene Modelle sind anders.
Sie können die vollständigen Modellgewichte herunterladen und auf Ihrem eigenen Server machen, was Sie wollen. Sie können es so trainieren, wie Sie möchten, und so viele Experimente durchführen, wie Sie möchten. Diese Flexibilität bieten geschlossene Modelle nicht.
Aber es gibt so viele offene Modelle. Warum wurde speziell Qwen gewählt?
Die offizielle Seite hat keinen wirklichen Grund angegeben. Die folgenden Gründe sind nur meine Vermutungen.
Ich denke, die gute Leistung ist der erste Grund.
Das Qwen-Modell hat in der Welt der offenen Modelle immer gute Ergebnisse erzielt. Insbesondere nach der Veröffentlichung von Qwen3 hat es in vielen Benchmark-Tests fast das Niveau der geschlossenen Modelle erreicht.
Für dieses Experiment ist die Fähigkeit des starken Schülers sehr wichtig. Wenn der starke Schüler selbst nicht gut genug ist, ist die schwache Überwachung auch umsonst. Qwen3 - 4B hat zwar nur 4 Milliarden Parameter, aber seine Fähigkeit ist stark genug, um als ein qualifizierter "starker Schüler" zu dienen.
Der zweite Grund ist die Verfügbarkeit des Modells.
Das Qwen-Modell hat eine gute Dokumentation, eine aktive Community und ein reifes Toolchain für Training und Inferenz. Für ein Experiment, das wiederholtes Training und Testen erfordert, hat die Vollständigkeit dieser Infrastruktur einen direkten Einfluss auf die Forschungsleistung. Wenn man ein offenes Modell mit unvollständiger Dokumentation und schlechten Tools wählt, würde man viel Zeit nur für die Einrichtung der Umgebung verschwenden.
Der dritte Grund ist die Anpassung der Größe.
Dieses Experiment benötigt einen "schwachen Lehrer" und einen "starken Schüler", und diese beiden Modelle müssen einen deutlichen Fähigkeitsunterschied haben, aber nicht zu viel.
Die Qwen-Serie hat mehrere Versionen von 500 Millionen bis 7,2 Milliarden Parametern, die man flexibel auswählen kann. Das Modell mit 500 Millionen Parametern ist schwach genug, aber nicht so schwach, dass es völlig nutzlos ist. Das Modell mit 4 Milliarden Parametern ist stark genug, aber nicht so stark, dass die Trainingskosten unerschwinglich werden. Diese Kombination ist genau richtig.
Der letzte Grund ist die Reproduzierbarkeit.
Anthropic hat am Ende der Studie klar gemacht, dass sie den Code und den Datensatz auf GitHub veröffentlicht hat. Wenn sie ein geschlossenes Modell verwendet hätten, wäre es für andere Forscher sehr schwierig, dieses Experiment zu reproduzieren, weil sie nicht auf dasselbe Modell zugreifen könnten.
Aber mit einem offenen Modell wie Qwen kann jeder die gleichen Modellgewichte herunterladen, denselben Code ausführen und dieselben Ergebnisse überprüfen. Dies ist für die Wissenschaft sehr wichtig.
Von diesem Blickwinkel aus gesehen, hat Anthropic Qwen gewählt, einerseits, weil es die Leistung des Ali-Modells anerkennt. Wenn Qwen nicht gut genug wäre oder beim Training viele Probleme hätte, würden sie es nicht wählen. Andererseits ist die Flexibilität und die Reproduzierbarkeit, die Qwen als offenes Modell bietet, noch wichtiger.
Und die chinesischen offenen KI-Projekte nehmen in dieser Infrastruktur immer wichtigere Stellungen ein. Dies ist sowohl für die globale KI-Sicherheitsforschung als auch für