StartseiteArtikel

Sind die Transformatoren tot? DeepMind setzt auf einen anderen Weg hin zu AGI.

新智元2026-01-09 10:36
Nested Learning bricht die Engpässe beim kontinuierlichen Lernen von KI, und könnte eine neue Ära der Künstlichen Allgemeinen Intelligenz (AGI) eröffnen.

Unter Bezugnahme auf das assoziative Gedächtnis des Menschen ermöglicht das verschachtelte Lernen, dass KI in der Ausführung abstrakte Strukturen aufbaut und die Grenzen von Transformer überwindet. Das Google-Team betont: Optimierer und Architektur sind Kontext zueinander, und nur die kooperative Evolution kann echte kontinuierliche Lernfähigkeit erreichen. Diese Studie könnte ein Klassiker werden und die Tür für die KI von passiver Schulung zu aktiver Evolution öffnen.

Das "katastrophale Vergessen", ein Gespenst, das die KI-Branche seit Jahrzehnten plagt, könnte diesmal endgültig besiegt werden.

Im vergangenen Jahr hat die KI enorme Fortschritte gemacht. Dies ist keine übertriebene Formulierung. Die Errungenschaften von Google DeepMind allein in einem Jahr lassen einen atonieren:

Wenn DeepMind die wichtigste Forschung oder das wichtigste Produkt von 2025 auswählen müsste, würde das derzeitige Hype-Thema "Nested Learning" (Verschachteltes Lernen) sicherlich eine Stelle einnehmen.

Nachdem ein Netizen die Studie gelesen hat, hat er in einem Beitrag geschrieben, dass diese Studie die "Fortsetzung" von "Attention is All you Need" sei.

Wenn der Transformer die Skalierbarkeits-Ära eingeleitet hat, könnte das verschachtelte Lernen die Ära des echten künstlichen allgemeinen Intelligenz (AGI) eröffnen.

Shane Legg, Gründer von DeepMind, ist noch direkter: Der Weg zu AGI ist frei, und der neueste Fortschritt ist das verschachtelte Lernen.

Einige Netizens haben sogar gesagt, dass, wenn man eine Studie für zukünftige Außerirdische hinterlassen würde, es unweigerlich diese Studie "Nested Learning" sein müsste.

Wenn es 2 - 3 Durchbrüche braucht, um AGI zu erreichen, könnte kontinuierliches Lernen einer von ihnen sein, und Google hat bereits mehrere einschlägige Studien veröffentlicht.

Allerdings haben diese Studien einen gemeinsamen Autor -

Ali Behrouz, ein zweiter Jahrgang Doktorand der Informatik an der Cornell University und ein Forschungsstipendiat am Google Research (New York).

Die Gedächtnisprobleme des Transformers

In vielerlei Hinsicht ist der Transformer hervorragend. Er kann skaliert werden, die KI voranbringen und eine Generalisierungsfähigkeit über Aufgaben und Bereiche hinweg erreichen.

Google hat jedoch frühzeitig erkannt, dass: Der Transformer ist nicht perfekt.

1.  Niedrige Effizienz bei der Verarbeitung langer Kontexte

2. Begrenzte Schichten abstrakter Kenntnisse

3. Schwache Anpassungsfähigkeit

4. Fehlende kontinuierliche Lernfähigkeit

Insbesondere der vierte Punkt ist nach Ansicht von Ali das schlüsselprobleme.

Wenn wir von "kontinuierlichem Lernen" sprechen, meinen wir:

Es gibt keine Trainingsphase und keine Testphase;

Das Modell formt kontinuierlich neue Erinnerungen und abstrakte Strukturen während der Nutzung.

So lernen Menschen von Natur aus.

Aber für heutige Large Language Models (LLMs) gibt es fast kein "kontinuierliches Lernen".

Um zu zeigen, wie grundlegend das Problem ist, benutzt Ali eine medizinische Analogie: Anterograde Amnesie.

Patienten mit dieser Krankheit haben ein sehr seltsames Merkmal:

  • Ihr Kurzzeitgedächtnis ist normal
  • Ihr Langzeitgedächtnis ist auch intakt

Aber das Problem ist: 👉 Das Kurzzeitgedächtnis kann nicht in Langzeitgedächtnis umgewandelt werden.

Also leben sie immer in der "Jetztzeit".

Neue Erfahrungen kommen und verschwinden bald wieder; Die Welt ändert sich, aber ihr Gehirn wird nicht mehr aktualisiert.

Stellen wir uns nun vor, dass diese Krankheit auf ein LLM übertragen wird.

Man wird feststellen, dass das Large Language Model und der menschliche Patient genau gleich sind.

Die Kenntnisse heutiger Large Language Models stammen hauptsächlich aus zwei Teilen:

Die langfristigen Kenntnisse, die während der Vorabtrainingsphase erlernt wurden;

Die kurzfristigen Informationen im aktuellen Kontext.

Aber zwischen diesen beiden gibt es fast keine Verbindung.

Das KI-Modell kann nicht natürlich die "gerade gelernten Dinge" in zukünftig wiederverwendbare Kenntnisse umwandeln.

Will man, dass es wirklich lernt?

Man muss nur: nochmal Geld ausgeben, nochmal trainieren, nochmal feinabstimmen.

Das unterscheidet sich im Wesentlichen nicht vom Zustand eines Patienten mit anterograden Amnesie.

Das eigentliche Problem liegt nicht darin, dass es zu wenige Parameter, zu wenig Daten oder nur unzureichende Rechenleistung gibt.

Das Problem liegt im Wesentlichen darin, dass es keine natürliche Übertragungsroute für Kenntnisse zwischen "Kurzzeitgedächtnis" und "Langzeitgedächtnis" gibt.

Wenn diese Route nicht existiert, bleibt das sogenannte "kontinuierliche Lernen" für immer nur ein Schlagwort.

Dies führt zu einem Kernproblem: Wie können wir einen Mechanismus aufbauen, damit das KI-Modell wie der Mensch die Erfahrungen der "Jetztzeit" in "zukünftige" Kenntnisse umwandeln kann?

Alle KI basiert auf "assoziativem Gedächtnis"

Wenn man die KI wirklich kontinuierlich lernen lassen will, kann man ein grundlegendes Problem nicht umgehen:

Wie merkt sich das Modell eigentlich Dinge?

Ali's Antwort ist nicht der Transformer, nicht die Anzahl der Parameter, sondern ein ursprünglicherer und grundlegendere Begriff: Assoziatives Gedächtnis.

Das sogenannte "assoziative Gedächtnis" ist das Fundament des menschlichen Lernmechanismus.

Es besteht darin, verschiedene Ereignisse oder Informationen durch Erfahrungen miteinander zu verknüpfen.

Beispielsweise sieht man ein Gesicht und denkt sofort an einen Namen; Man riecht einen bestimmten Geruch und es weckt eine Erinnerung.

Dies ist keine logische Schlussfolgerung, sondern das Aufbauen einer Assoziation.

Technisch gesehen ist assoziatives Gedächtnis eine Key-Value-Mapping:

  • Key: Der Hinweis
  • Value: Der damit verbundene Inhalt

Das Wichtige ist, dass die Mapping-Beziehung des assoziativen Gedächtnisses nicht vorgegeben ist, sondern "gelernt" wird.

Von einer gewissen Perspektive aus gesehen ist der Attention-Mechanismus im Wesentlichen ein assoziatives Gedächtnissystem: Es lernt, wie man aus dem aktuellen Kontext den Key extrahiert und ihn auf den passendsten Value abbildet, um eine Ausgabe zu erzeugen.

Was würde passieren, wenn wir nicht nur diese Mapping-Beziehung selbst optimieren, sondern auch das System dazu bringen, die Anfangsbedingungen dieses Mapping-Prozesses zu meta-lernen?

Auf der Grundlage des Verständnisses von assoziativem Gedächtnis haben sie einen allgemeinen Rahmen namens MIRAS vorgeschlagen, um die Gedächtnismodule in KI-Modellen systematisch zu entwerfen.

Der Kerngedanke dieses Rahmens ist:

Fast alle Attention-Mechanismen, lokalen Gedächtnisstrukturen und sogar der Optimierer selbst können als Spezialfälle von assoziativem Gedächtnis betrachtet werden.

Um ein "lernfähiges, verschachteltes Gedächtnissystem" zu entwerfen, müssen wir vier wichtige Entwurfsentscheidungen für die Gedächtnisstruktur im Modell treffen:

Memory Architecture (Gedächtnisarchitektur)

Attentional Bias/Objective (Aufmerksamkeitsverzerrung/Zielsetzung)

Retention Gate (Aufbewahrungsmechanismus)

Learning Rule (Lernregel)

Dieser Rahmen kann verwendet werden, um viele bestehende Attention-Mechanismen und Optimierer einheitlich zu erklären.

Einfach ausgedrückt: MIRAS ermöglicht es uns, "Gedächtnis" als einen Lernprozess zu modellieren, zu kombinieren und zu optimieren, und nicht nur als ein statisches Modul.

Darüber hinaus kann der Optimierer auch als ein assoziativer Prozess betrachtet werden, der "die aktuelle Gradienteninformation auf historische Informationen abbildet", und somit kann man ihn neu modellieren und verallgemeinern.

Der Optimierer ist ein "Gedächtnismodul", ein Schlüsselkomponente für das Modell, um seine Lernhistorie zu verstehen und bessere Entscheidungen zu treffen.

Der Optimierungsprozess und der Lernalgorithmus/Architektur sind im Wesentlichen das gleiche Konzept, nur in verschiedenen Hierarchieebenen des Systems mit unterschiedlichem Kontext (d.h. Gradienten und Daten).

Außerdem sind sie zwei miteinander verbundene Komponenten, wobei der Lernalgorithmus/Architektur den Kontext (d.h. die Gradienten) für den Optimierer erzeugt. Dies unterstützt das Konzept, spezielle Optimierer für bestimmte Architekturen zu entwerfen.

Daraus hat das Google-Team die Art der Wissensübertragung zwischen verschiedenen Hierarchieebenen untersucht und das verschachtelte Lernen vorgeschlagen.

Das verschachtelte Lernen heilt die Amnesie von LLMs

Aus Sicht des Nested Learning (NL) ist das Training von tiefen neuronalen Netzen mit Backpropagation und Gradientenabstieg im Wesentlichen ein Kompressions- und Optimierungsproblem. Das Ziel ist es, ein assoziatives Gedächtnis zu trainieren, um die Eingabe jeder Schicht auf den entsprechenden lokalen Fehler in seiner Vorhersage abzubilden.

Entsprechend halten sie die Vorabtrainingsphase für eine Form des in-Kontext-Lernens, wobei der Kontext alle Vorabtrainingsdaten sind und die verschiedenen Netzwerkebenen diesen Kontext in ihre Parameter komprimieren. Andere beliebte gradientenbasierte Optimierer sind im Wesentlichen auch assoziative Gedächtnisse, die darauf abzielen, die Gradienten in ihre Parameter zu komprimieren.

Optimierer und Architektur sind nicht voneinander unabhängig. Sie sollten Kontext zueinander sein und kooperativ evolvieren