Berkeleys Meisterwerk hinterhältig gegen OpenAI: Kontinuierliches Lernen

Berkeley und andere haben das FST-Framework veröffentlicht: Die Endlosschleife des kontinuierlichen Lernens großer Modelle wird durch schnelle und langsame Schichtung gelöst.

Der AI-Ingenieur Dan McAteer prophezeit mutig, dass das kontinuierliche Lernen (continual learning) 2026 explodieren wird!

Durch einen hierarchischen Mechanismus, der schnelles Anpassen anhand von Gedächtnis/Kontext und langsame Anpassung der Gewichte kombiniert, behält das Modell seine Plastizität und vermeidet katastrophales Vergessen. Dieser Durchbruch ist 1000 Mal größer als die Veränderungen in der Inferenz.

Das ist die Entschlossenheit, die ihm die jüngsten AI-Experimente von Institutionen wie Berkeley gegeben haben.

Sie ließen dasselbe Large Language Model (LLM) nacheinander drei Aufgaben lernen:

Zuerst die Tatsachenprüfung HoVer, die mehrstufige Suche erfordert; dann die Code-Inferenz CodeIO; und schließlich Physikaufgaben (Physics).

Nach 200 Trainingsschritten pro Aufgabe wechselte man zur nächsten, um die Lernsituation in der realen Welt zu simulieren, in der sich die Aufgaben ständig ändern.

Mit dem gängigen Paradigma des Reinforcement Learnings (RL) lernte das Modell die erste Aufgabe, HoVer, aber bei der zweiten Aufgabe, CodeIO, blieb es völlig stecken und konnte nicht weiterlernen.

Mit dem von ihnen vorgeschlagenen neuen Framework FST (Learning, Fast and Slow) konnte dasselbe Modell alle drei Aufgaben lernen.

Dies ist die erste Anzeichen für die Grenzen einer Richtung, auf die die AI-Branche in den letzten zwei Jahren gesetzt hat.

Titel: Learning, Fast and Slow: Towards LLMs That Adapt Continually. Preprint: https://arxiv.org/abs/2605.12484. Projektseite: https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

Wenn der Weg, auf den wir alle setzen, dazu führt, dass das Modell ein "Genie, das Aufgaben lösen kann, aber keine neuen Dinge lernen kann", dann ist das, auf das wir setzen, eher ein immer raffinierterer Papagei als echte Künstliche Intelligenz?

„Inferenz“ ist zur gesamten Erzählung in der AI-Szene geworden

In den letzten zwei Jahren haben fast alle führenden Labore dasselbe getan: Sie haben versucht, dass die Modelle tiefer denken.

Produkte wie OpenAIs o-Serie, DeepSeeks R1 und Claudes Denkmodus haben zwar unterschiedliche Formen, aber alle basieren auf einem Konsens: Die Inferenzfähigkeit ist die nächste Stufe für die AI.

Wie stark ist dieser Konsens?

So stark, dass Sie heute bei führenden Investoren nicht einmal in die erste Runde kommen, wenn Sie nicht erklären können, wie Sie "Inferenz" (reasoning) betreiben.

So stark, dass wir vergessen haben zu fragen: Was ist eigentlich Inferenz?

Nehmen wir an, ein Schüler kann jede Hochschulzugangsprüfungsaufgabe unendlich tief durchdenken, seine Inferenzketten sind fehlerlos und seine logische Struktur lückenlos.

Aber es gibt eine Voraussetzung: Seit seinem Abschluss aus der Mittelstufe hat er keine neuen Kenntnisse mehr erworben. All seine Wissensbestände bleiben auf dem Stand seines 16. Lebensjahrs.

Würden Sie seine Fähigkeiten als "Intelligenz" bezeichnen?

Dies ist keine bloße Metapher. Dies ist die tatsächliche Situation der derzeit fortschrittlichsten LLMs.

Alle Modelle wie GPT-5, Claude, Gemini, die Sie heute nutzen können, sind bei jedem neuen Gespräch wie ein Genie, das gestern abgeschlossen hat, heute aufwacht und alles vergessen hat.

Sie können immer tiefer in einer Aufgabe inferieren, aber sobald das Dialogfenster geschlossen wird, wird ihr Gedächtnis gelöscht und sie kehren in den "Geniestatus" wie bei der Auslieferung zurück.

Sie sind wie digitale Sisyphusse, die immer wieder auf dem Felsen der Inferenz klettern - sie klettern immer höher, aber der Startpunkt ist immer der Berghang.

Die Frage ist: Warum haben wir das bisher nicht bemerkt?

30 Jahre lang fehlgeschlagen in der AI-Geschichte - niemand traut sich mehr zu hoffen

Warum lernt GPT nichts aus Ihren Gesprächen mit ihm? Warum vergisst es alles, was Sie ihm gestern beigebracht haben, wenn Sie ein neues Gespräch eröffnen?

Dies ist eine Wand, die seit 30 Jahren niemand niederreißen konnte.

Das "kontinuierliche Lernen" (Continual Learning) in der AI-Branche befasst sich damit, wie Modelle wie Menschen lernen können, ständig "alte Kenntnisse wiederholen und neue erwerben".

Dieses Problem wird seit den 1990er Jahren untersucht und hat sich wiederholt gegen drei alte Gegner geschlagen:

Der erste Gegner heißt "Primacy Bias" (Anfangsverzerrung). Frühe Daten bestimmen die endgültige Strategie des Modells.

Das erste, was das Modell lernt, prägt hartnäckig die Art, wie es alle späteren Dinge lernt.

Der zweite Gegner heißt "Verlust der Plastizität" (loss of plasticity). Das heißt, je mehr Aufgaben das Modell lernt, desto weniger plastisch wird es.

Ab einem bestimmten Punkt kann es keine neuen Dinge mehr lernen.

Der dritte Gegner ist am bekanntesten und heißt "katastrophales Vergessen" (catastrophic forgetting) - wenn Sie das Modell eine neue Aufgabe lernen lassen, bricht seine alte Fähigkeit plötzlich zusammen.

Wenn Sie es Mathematikaufgaben lösen lassen, vergisst es, wie es Code schreibt. Wenn Sie es Code schreiben lassen, vergisst es, wie es spricht.

Diese drei Probleme bestanden bereits in der Zeit der kleinen Modelle.

In der Zeit der großen Modelle sind sie nicht kleiner geworden, sondern nur weniger auffällig.

Weil wir es einfach aufgegeben haben, dass die Modelle "kontinuierlich lernen", laden wir ihnen nur einmal Wissen bei der Trainingsphase ein und fixieren sie nach der Implementierung.

Alle LLMs, die wir heute nutzen, sind im Wesentlichen gefrorene Genies.

Sie sind clever, aber können nicht noch cleverer werden. Sie sind stark, aber leben in einer ewigen Gegenwart.

Deshalb war kontinuierliches Lernen in der Zeit der großen Modelle immer ein Thema, das "schön klingt, aber niemand anfassen will".

Alle, die es versucht haben, wurden von dieser Wand zurückgeworfen.

Neulich haben eine Gruppe von Forschern diese Wand ein wenig aufgebrochen - sie haben keine neue Algorithmen erfunden, sondern etwas Grundlegendes getan: Neuverteilung der Aufgaben.

Das Modell wie das Gehirn in schnelle und langsame Schichten aufteilen

Dies ist ein Projekt, das die Ingenieurskraft von Databricks, die Systemwissenschaftler von Berkeley und die klassische ML-Schule zusammenbringt.

Die Autoren sind beeindruckend und lohnen sich einen Blick: Matei Zaharia (Mitbegründer von Databricks, Autor von Apache Spark), Joseph Gonzalez (Berkeley, einer der Autoren von vLLM), Inderjit Dhillon (UT Austin und Google, Pionier in der ML-Branche) - und eine Gruppe von Doktoranden aus Berkeley.

Wenn diese drei Kräfte sich für eine Richtung entscheiden, sollten Sie es sich ansehen.

Ihr vorgeschlagenes Framework heißt FST (Fast-Slow Training, schnelles und langsames Training). Die Kernidee ist äußerst einfach:

Lassen Sie nicht, dass ein Satz von Parametern zwei widersprüchliche Funktionen übernimmt.

Beim traditionellen RL-Training hat das Modell nur einen Satz von Parametern.

Es muss sowohl "schnell auf die Besonderheiten der aktuellen Aufgabe reagieren" als auch "allgemeine Inferenzfähigkeiten behalten".

Diese beiden Dinge stehen in Konflikt zueinander: Das erste erfordert Flexibilität, das zweite Stabilität.

Die Vorgehensweise von FST ist: Teilen Sie diese beiden Dinge auf zwei "Gewichte" auf.

Beide werden abwechselnd aktualisiert - in regelmäßigen Abständen wird das langsame Gewicht mit RL angepasst, während ein Prompt-Optimierer namens GEPA automatisch das schnelle Gewicht optimiert.

Ihr Gehirn funktioniert genau so.

In ihrem Blog zitiert das GEPA-Team direkt die Theorie der "komplementären Lernsysteme" (Complementary Learning Systems):

Ihr Hippokampus ist das "schnelle Gewicht" des Gehirns. Er kann in wenigen Minuten das, was ein Kollege heute Nachmittag in einer Besprechung gesagt hat, merken.

Ihre neue Großhirnrinde ist das "langsame Gewicht". Sie braucht Monate oder sogar Jahre, um langsam die wirklich wichtigen Details aus diesen Erinnerungen in die langfristige Struktur des Gehirns zu integrieren.

Neue Erinnerungen werden nie direkt in die langfristige Struktur des Gehirns geschrieben.

Sie werden zuerst im Hippokampus "zwischengespeichert", während des Schlafs wiederholt abgespielt, und nur ein winziger Teil wird langsam in die neue Großhirnrinde integriert - der Rest wird vergessen.

FST gibt den großen Modellen erstmals diese hierarchische Struktur.

Die Zahlen sind auch beeindruckend.

FST erreicht auf der CodeIO-Aufgabe die gleiche Leistung wie RL, aber mit nur einem Drittel der Trainingsschritte - die Dateneffizienz ist dreimal so hoch.

Bei gleicher Übereinstimmungsgenauigkeit ist die KL-Divergenz (Maß für die Verteilungsschiefe) zwischen dem von FST trainierten Modell und dem Basis-Modell um 70 % niedriger als bei RL - das Vergessen wird um 70 % reduziert.

Das wichtigste ist der Plastizitätstest: Nach dem Training der Math-Aufgabe und dann der HoVer-hard-Aufgabe kann das von RL trainierte Modell fast keine neuen Aufgaben mehr lernen (die Plastizität kollabiert fast auf 0), während das von FST trainierte Modell fast auf das Niveau des Basis-Modells zurückkehrt und weiterlernen kann.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Berkeleys Meisterwerk hinterhältig OpenAI: Kontinuierliches Lernen ist der wahre Gott.

„Inferenz“ ist zur gesamten Erzählung in der AI-Szene geworden

30 Jahre lang fehlgeschlagen in der AI-Geschichte - niemand traut sich mehr zu hoffen

Das Modell wie das Gehirn in schnelle und langsame Schichten aufteilen