Meta und MIT setzen Gift ein, um sich in der Zeit böser AI-Reparaturen selbst hochzuheben

Meta SOAR nutzt "giftige Daten" als Sprungbrett und zieht das Modell regelrecht aus der kognitiven Schwarzen Löcher-Situation von Fail@128 heraus! Die Inferenzfähigkeit steigt um 9,3%! Im Jahr 2026 ist dies die härteste Gegenangriffsstrategie.

Was wäre das Ergebnis, wenn man einem KI-System ein Lehrbuch mit einem Fehlerquoten von bis zu 67 % zuführt?

Früher wäre es sicherlich in die Irre geführt worden: Dies nennt man "Datenvergiftung"! Im besten Fall käme es zu einer Art "Gehirnnebel" des Modells, im schlimmsten Fall zu einem Kollaps der Logik, was es direkt in die Intensivstation bringen würde.

Aber im Labor von Meta FAIR hat sich dieses Gift in ein lebensrettendes Mittel verwandelt.

Link zur Studie: https://arxiv.org/abs/2601.18778

Anstatt das Modell dümmer zu machen, hat es es ermöglicht, auf einer Anhäufung von "lügenhaften" Daten einen Schritt nach vorne zu gehen und die Spitze des Schlussfolgerns zu erreichen, die für den Menschen unerreichbar ist.

Der Zusammenbruch des gesunden Menschenverstands: Ist ein Fehlerkatalog die Wahrheit?

Das Forschungsunternehmen hat die "Fail@128"-Teilmenge aus den Datensätzen MATH und HARP ausgewählt, die als besonders schwierig gelten.

Was bedeutet das? Wenn man Llama-3.2-3B eine Aufgabe 128 Mal raten lässt, beträgt die Erfolgsquote immer noch 0.

Dies ist nicht nur "schwierig", sondern auch ein absoluter kognitiver Leerraum: In der traditionellen Verstärkungslernmethode bedeutet dies "Gradientenverschwinden" - wie ein Schlag ins Leere in einem dunklen Raum. Da es nie getroffen hat, weiß es nicht, wohin es sich richten soll.

Die Lösung von DeepSeek R1 besteht darin, die Rechenleistung zu erhöhen, indem es mit GRPO wild sampelt und auf das eine Millionstel "Eureka-Moment" setzt.

Aber Meta hat einen anderen Weg eingeschlagen - es hat sich seinen eigenen Weg gebahnt.

Die SOAR-Architektur hat ein "Lehrermodell" entwickelt, das speziell auf die Erzeugung von Aufgaben mittlerer Schwierigkeit, sogenannter "Sprungbretter", abzielt.

Als die Forscher diese "Sprungbretter" näher untersuchten, erstarrten sie vor Schrecken: 84 % der Aufgaben haben eine klare und logische Struktur, aber nur 33 % der Lösungen sind richtig.

Wichtig: Zwei Drittel der Lösungen sind falsch!

Wenn man die Reinigungsstandards von OpenAI o1 anwendet, würden diese Daten schon in der ersten Runde als "Illusionsmüll" ausgesondert werden.

Aber aus der Sicht von SOAR sind diese Daten Schätze.

Selbst wenn das "Lehrermodell" selbst nicht in der Lage ist, Integralrechnungen zu lösen, kann es dennoch eine hochwertige Integralaufgabe erstellen.

Wenn das "Schülermodell" diese Aufgabe löst und am Ende feststellt, dass die Lösung nicht stimmt, hat es dennoch beim "Aufbau des Schlussfolgungsweges" ein echtes Gehirntraining bekommen!

Beispiel für die Evolution des SOAR-Kurses: Das linke Bild zeigt, dass die Greedy-Accuracy des Schülers bei den Fail@128-Schwierigkeiten in Stufen steigt, während das Lehrer-Modell trainiert wird. Das rechte Bild zeigt typische generierte Aufgaben - in der Stufe 1 sind es meist alltägliche Aufgaben, in der Stufe 2 geht es eher um höhere Algebra und Trigonometrie. Dies beweist, dass das Lehrer-Modell durch die "Promotion" immer schwierigere, aber strukturell effektive Sprungbretter erstellt, was den Schülern hilft, ihre Schlussfolgerungsfähigkeiten zu verbessern.

Die Tatsache beweist, dass Irrtümer tatsächlich die Sprungbretter zur Wahrheit sein können.

Der SOAR-Mechanismus: Ein Schwarzes-Box-Spiel, das die KI zur "Ehrlichkeit" zwingt

In der Geschichte der Selbstentwicklung von KI hat es unzählige Male geschah, dass die KI an einer Schwelle hängen blieb - der "Selbsttäuschung".

Um Belohnungen zu erhalten, erstellt die KI oft einfach wiederholende, nutzlose Aufgaben, um die Punktzahl zu erhöhen.

Um diesem Problem zu begegnen, hat SOAR ein äußerst hartes "Doppelspiel" entwickelt:

Der "Chaosarchitekt" (Lehrer): Verantwortlich für die Erstellung von Aufgaben, die richtig oder falsch sein können.

Der "Überlebenskünstler" (Schüler): Verantwortlich für das Lösen der Aufgaben und das Angehen der "Fail@128"-Endspielsituation.

Der meta-RL-Trainingszyklus von SOAR: Das Lehrer-Modell erstellt einen synthetischen Datensatz, während das Schüler-Modell in einem inneren Zyklus mit Verstärkungslernen trainiert wird. Die Verbesserungen werden anhand von schwierigen Validierungsaufgaben bewertet und die daraus resultierende Belohnung R wird an das Lehrer-Modell zurückgegeben, um es in einem äußeren Zyklus zu aktualisieren. Die Belohnung basiert vollständig auf der echten Verbesserung des Schülers bei den extrem schwierigen Aufgaben, nicht auf der Richtigkeit der generierten Daten.

Darüber hinaus hat Meta einen "Fundamentierten-Belohnungs"-Mechanismus eingeführt. Es ist egal, wie aufwändig die Aufgaben des Architekten sind. Erst wenn der Schüler diese Aufgaben gelöst hat und bei den echten Fail@128-Schwierigkeiten bessere Ergebnisse erzielt, erhält der Architekt eine Belohnung.

Die Lernkurven von SOAR-Lehrer-Varianten: Das Training des Schülers mit Aufgaben, die von Grounded-T (Lehrer mit fundierter Belohnung, rosa durchgezogene Linie) gesampelt wurden, hat auf MATH und HARP die höchsten und stabilsten Pass@32- Verbesserungen erzielt, weit über Base-T (blaue gestrichelte Linie, stark schwankend) und Hard Only (blaue punktierte Linie).

Um also eine hohe Punktzahl zu erzielen, muss der Architekt "raten", was der Schüler wirklich braucht und welche Aufgaben er stellen soll.

Die Lernkurven von SOAR-Lehrer-Saatvarianten: Die von Grounded-T (G-T(1) bis G-T(4), rote Linien) generierten Kurse haben es dem Schüler ermöglicht, die Pass@32-Quote stabil auf ~18-22 % (MATH) bzw. ~12-15 % (HARP) zu erhöhen, mit einer minimalen Varianz. Intrinsic-T (I-T(1) bis I-T(3), cyanfarbene Linien) zeigt starke Schwankungen und sogar Kollapsmodi (z.B. beim I-T(1) ist die Leistung des Schülers zusammengebrochen). Dies beweist, dass die fundierte Belohnung die Lehrer-Strategie robuster macht, während die intrinsische Belohnung instabil oder kollabierend sein kann.

Das Lehrer-Modell muss Aufgaben erstellen, die seltsam und manchmal sogar falsche Lösungen enthalten, denn nur diese Aufgaben können den Schüler wirklich verbessern.

Direktes Training vs. selbstgenerierter Kurs: Auf der linken Seite führt die spärliche Belohnung zu keinem Gradientensignal, während auf der rechten Seite das Lehrer-Modell Aufgaben mittlerer Schwierigkeit erstellt, die einen fortschreitenden Kurs bilden und dem Schüler-Modell helfen, in der Fail@128-Datenmenge Durchbrüche zu erzielen.

Das SOAR-Konzept in einem Bild: Das Lehrer-Modell erstellt synthetische fehlerhafte Aufgaben, der Schüler übt und wird anhand schwieriger Aufgaben bewertet. Die Belohnung ist direkt mit der Verbesserung bei den schwierigen Aufgaben verbunden - die rosa Kurve steigt stark, während die blaue Kurve gleichbleibt.

Der Streit um den Weg: Die brute Macht von DeepSeek vs. die List von Meta

Der Kampf um die Schlussfolgerungsfähigkeit von KI-Modellen im Jahr 2026 ist im Wesentlichen ein Konflikt zwischen drei "Religionen".

DeepSeek R1: Das "Eureka-Moment" durch Glücksspiel

DeepSeek R1 repräsentiert die "Schule der brutalen Ästhetik".

Seine Kernwaffe, GRPO, beruht auf einer massiven Sampling-Strategie - das Modell versucht wiederholt, bis es zufällig auf die richtige Lösung stößt und das sogenannte "Eureka-Moment" hat.

Dies funktioniert bei normalen schwierigen Aufgaben ausgezeichnet, aber bei "Fail@128" - Situationen, die als "absolute Todesfallen" gelten, stößt die Strategie von DeepSeek an ihre Grenzen.

Wenn die Erfolgsquote 0 ist, bleibt die Belohnung immer 0, egal wie oft man sampelt. Ohne positive Rückmeldung sinkt der Gradient nicht.

Das ist wie ein Affe vor einem Schreibmaschine, der versucht, "Hamlet" durch zufälliges Tippen zu schreiben - theoretisch möglich, aber in der Realität mit unendlichen Rechenkosten verbunden.

OpenAI o1: Die unhaltbare "Räuberische Reinheit"

OpenAI o1 repräsentiert die "Schule der elitäreren Bildung", die fest davon überzeugt ist, dass "CoT perfekt sein muss".

Durch eine intensive manuelle Reinigung oder die Verwendung von hochpräzisen synthetischen Daten versucht o1, dem Modell die standardmäßigsten Schlussfolgerungsschritte beizubringen.

Aber die Experimente von SOAR haben diese "Reinheit" lächerlich gemacht. Meta hat bewiesen, dass eine übermäßige Reinigung der Daten möglicherweise Genies erstickt.

Die von SOAR generierten "lügenhaften" Aufgaben, obwohl die Lösungen falsch sind, enthalten oft "Denkansätze", die der Mensch nicht erwartet.

Wenn man diese Daten gemäß den Standards von OpenAI entfernt, verliert das Modell die Möglichkeit, aus der lokalen Optimalität herauszukommen.

Noch fataler ist, dass die hochwertigen Schlussfolgerungsdaten knapp werden, und die Geschwindigkeit, mit der der Mensch schwierige Aufgaben erstellt, hinkt weit hinter der Geschwindigkeit zurück, mit der das Modell Daten verbraucht.

Die Dimensionalitätsreduktion von SOAR: Der "Treppenaufstieg aus dem Nichts"

Meta hat einen dritten Weg eingeschlagen: die "Schule der Selbstermächtigung".

SOAR setzt nicht auf die brute Rechenleistung von DeepSeek oder die teuren manuellen Daten von OpenAI. Ohne externe Eingaben kann es die unbewussten Fähigkeiten des Modells durch interne Interaktionen herausfordern.

In der Studie wurde eine philosophisch interessante Entdeckung gemacht:

Wenn man direkt das trainierte Lehrer-Modell verwenden würde, um Aufgaben zu lösen, wäre es nicht wesentlich besser als das Basismodell.

Dies zeigt, dass "Aufgaben erstellen" und "Aufgaben lösen" zwei völlig verschiedene Fähigkeiten darstellen.

Die Stärke von SOAR liegt darin, dass es nicht versucht, alle Fähigkeiten in einem einzigen Modell zu vereinen, sondern dass es einen Teil der Rechenleistung zu einem "Schleifstein" macht, um den anderen Teil zu verbessern.

Die Leistungssteigerung von SOAR auf den MATH und HARP Fail@128-Datensätzen: Die "Promotion Questions" haben die größte Verbesserung gebracht, was beweist, dass die strukturelle Qualität der synthetischen Daten weit wichtiger ist als die Richtigkeit der Lösungen. Intrinsic-T hat eine schlechtere Leistung gezeigt, was die Wichtigkeit der "fundierten Belohnung" bestätigt.

In einer Zeit, in der die Angst vor einem Datenmangel groß ist, könnte der Weg von Meta die einzige Hoffnung sein, dass KI auch ohne menschliches Wissen weiterhin evolvieren kann.

Das Ende des Datenmangels: Die Selbstreproduktion der KI

Seit langem hängt wie das Schwert des Damokles über der KI die "Theorie des Datenmangels".

Die Branche ist allgemein pessimistisch und glaubt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。