Google umwirft Modellgedächtnis - Tabelle, NVIDIA revolutioniert Aufmerksamkeit

Eine Debatte ausgelöst von Nested Learning.

In jüngster Zeit hat das Nested Learning von Google ein Gedächtnis-Erdbeben in der Modellwelt ausgelöst.

Viele Menschen haben erneut erkannt, dass große Modelle nicht immer nur als „nach dem Training archivierte“ schreibgeschützte Gewichte existieren müssen. Sie können auch während des Inferenzprozesses weiter verändert werden. In Nested Learning, wenn das Modell neue Kontexte liest, stopft es nicht einfach den Text in den Attention-Cache und sucht darin vorübergehend, sondern erlaubt es sich, seine Parameter während des Inferenzprozesses zu ändern, sodass neue Informationen zu einem Teil seines internen Gedächtnisses werden.

Während die Menschen noch versuchten, diese Idee zu verstehen, hat Nvidia am 28. Dezember 2025 eine noch radikalere Antwort gegeben, eine Studie mit dem Titel „End-to-End Test-Time Training for Long Context“. Die Gedächtnisverbesserungsroute von Google bemüht sich immer noch um die Lösung des Gedächtnisproblems und versucht, wichtige Dinge aus der Vergangenheit möglichst vollständig zu speichern. Die Forscher von Nvidia hingegen sind der Meinung, dass Gedächtnis eigentlich nichts anderes als Lernen ist, und „merken“ bedeutet „weiter trainieren“.

So wie Menschen sich nicht an die Satzungen aus der Grundschule erinnern können, aber Eindrücke wie die, die uns Artikel wie „Das Denkmal“ damals hinterlassen haben, tief in unseren Wertvorstellungen verankert sind.

Die Forscher von Nvidia und Stanford glauben, dass KI auch so funktionieren sollte.

01 Lernen statt Attention-basiertes Gedächtnis

Wenn man die Zeitlinie zurückverfolgt, wird man feststellen, dass TTT (Test-Time Training) keine plötzlich auftauchende Erfindung ist.

Bereits 2013 haben Mikolov und andere an dynamischer Evaluation in Sprachmodellen experimentiert. Damals wurde das Modell entfroren und auf Testtexten mit der Kreuzentropieverlustfunktion CE (die wir am häufigsten als Ziel für das Parameternlernen in großen Sprachmodellen verstehen) für die Vorhersage des nächsten Tokens kleine Gradientenschritte durchgeführt, um die Parameter an den aktuellen Stil, Thema und lokale statistische Muster anzupassen. Krause und andere haben es 2018 noch systematischer und praktikabler gemacht.

Das heißt, schon in der Frühzeit der großen Sprachmodelle haben die Leute festgestellt, dass das Verändern von Parametern während der Inferenz nicht nur der grundlegenden Logik der Sprachmodellierung entspricht, sondern sogar Vorteile bringt.

Bei der Analyse von Nested Learning wurde viel über die Revolution des Gedächtnisses diskutiert. Wenige Menschen haben jedoch bemerkt, dass es in Bezug auf den Kontext die Attention-Schicht ersetzen kann. Die Entstehung von TTT-E2E hat diese Möglichkeit noch deutlicher gemacht.

In den letzten zehn Jahren gründete der Erfolg von Transformer in hohem Maße auf dem Attention-Mechanismus. Er erstellt für jeden gelesenen Satz einen Index (KV Cache) und muss jedes Mal, wenn er eine Frage beantwortet, die alten Texte genau durchsuchen. Dieser Mechanismus ist zwar präzise, aber sehr speicherintensiv. Deshalb gibt es verschiedene Verbesserungsansätze wie Gruppen-Attention und lineare Attention, um den Speicherbedarf zu reduzieren und die Kontextlänge des Modells zu erhöhen.

Das TTT-Konzept verzichtet hingegen direkt auf die „Internalisierung“ (Gewichtsaktualisierung) von Wissen, um das Problem der Kontextverarbeitung zu lösen. Unabhängig von der Länge des Kontexts bleiben die Größe des Inferenzzustands und die Rechenleistung immer gleich.

Deshalb ändert sich in der TTT-Familie die Latenz (Generierungsverzögerung) unabhängig von der Zunahme des Kontexts nicht.

Dies ist die Kernfähigkeit von TTT, die im Inferenzstadium die Attention ersetzen kann: es kann nahezu unendliche Kontexte ohne Verzögerung merken.

Aber die dynamische Evaluation hat sich nie wirklich zum Hauptstream der Implementierung entwickelt. Dies liegt daran, dass es damals noch sehr unausgereift war und schwierig zu nutzen war. Der Hauptunterschied besteht darin, dass die Trainings- und Inferenzphasen nicht übereinstimmen.

Während der Trainingsphase wird die „out-of-the-box“-Leistung mit gefrorenen Parametern optimiert, ohne dass das „mehrere Schritte der Aktualisierung während der Inferenz“ als Teil des Modellverhaltens in die Zielfunktion aufgenommen wird. Dies führt in der Praxis zu Instabilität. Ohne Einschränkungen aktualisiert das Modell kontinuierlich, und katastrophales Vergessen (das Lernen neuer Dinge führt zum Vergessen alter Dinge), Parameterdrift (die Verteilung der Modellparameter wird sehr seltsam) und Überanpassung an ungewöhnliche Segmente (das wiederholte Sprechen von seltsamen Dingen) werden zu Standardrisiken.

Die frühen Methoden können das Problem hauptsächlich durch „kleine Lernraten, wenige Schritte und häufige Zurücksetzungen“ lindern. Sie machen das System zwar gerade noch brauchbar, aber sie sperren TTT fast auf die Skala der „kurzen Anpassung“ ein und erschweren die Entwicklung zu einem echten Langzeitgedächtnis.

Was Nested Learning / Titans tut, ist es, diese Logik auf Architekturebene umsetzbar zu machen. Durch die Aufteilung in Ebenen mit unterschiedlicher Aktualisierungsfrequenz und die unabhängige Aktualisierung jeder Ebene wird die Parameteraktualisierung stabilisiert. Dies ermöglicht es TTT, sich von der kurzen Feineinstellung zu einer Methode für langfristiges internes Gedächtnis zu entwickeln. Wir können also sagen, dass es eine stabile Methode für die Aktualisierung des Langzeitgedächtnisses bringt.

Aber dies hat seinen Preis. Nvidia klassifiziert in seiner Studie Nested Learning und Titans in die Kategorie TTT-KVB. Denn ihre Aktualisierungsziele unterscheiden sich etwas von denen des traditionellen TTT. Sie lehren das Modell eher, „wie man speichert“, als direkt, „wie man vorhersagt“.

Wir wissen alle, dass das endgültige Ziel eines großen Sprachmodells die „Vorhersage des nächsten Tokens“ ist, dies ist das ursprüngliche Lernziel. Die Aktualisierungsziele von Nested Learning sind normalerweise, dass das Modell aus einer komprimierten Darstellung (z. B. einem Schlüssel) den entsprechenden Wert rekonstruiert oder dass der verborgene Zustand innerhalb der Ebene kohärent evolviert. All dies dient der Erstellung einer internen Gedächtnisstruktur, die schnell indiziert werden kann. Dies kann zwar indirekt dem Sprachmodell helfen, seine Aufgabe zu erfüllen, da ein besseres internes assoziatives Gedächtnis möglicherweise bessere Vorhersagen ermöglicht. Aber es besteht immer ein gewisser Abstand zum endgültigen Ziel.

Das von Nvidia vorgeschlagene TTT-E2E ähnelt eher der ursprünglichen dynamischen Evaluation. Sein Aktualisierungsziel während der Tests ist die Kreuzentropie CE für die Vorhersage des nächsten Tokens am Ende des gesamten Netzwerks. Um nur ein Ziel zu haben, ist diese Methode end-to-end, ohne Ebenenaufteilung und aktualisiert von Anfang bis Ende nur diese eine CE. Wenn die Verlustfunktion die endgültige Aufgabe selbst ist, optimiert alles, was das Modell im Kontext lernt, die nachfolgenden Vorhersagen direkter. Es stimmt vollständig mit dem endgültigen Ziel des Modells überein.

Um diesen Unterschied zu verdeutlichen, haben sie in ihrer Studie ein „Spielzeugmodell“ entwickelt, bei dem alle Selbst-Attention-Schichten aus dem Transformer entfernt wurden und nur der Multilayer-Perzeptron (MLP) übrig blieb. Dies bringt das Modell im Grunde auf ein „Bigramm-Modell“ zurück, das nur den vorherigen Token merken kann. Unter dieser Annahme kann jegliche Langzeitgedächtnisfähigkeit nicht aus Attention oder Cache stammen, sondern nur aus dem „Aktualisieren der Gewichte während der Tests und Einbetten des Kontexts in die Parameter“ selbst.

Dann lassen sie das Modell während der Tests, wenn es x1, x2, x3, … liest, ständig Übungen machen: Es soll mit xt-1 xt vorhersagen, die CE berechnen und einen kleinen Gradientenschritt für diesen Verlust durchführen.

Das ist wie ein Entdecker, der nur einen Meter vor sich sieht und nur anhand des letzten Schrittes raten kann, was als nächstes kommt. Und du musst eine 10 km lange Höhle durchqueren (alle Kontexte durchlaufen und Änderungen vornehmen).

Bei jedem Schritt sagst du zuerst voraus: „Nach meinem Orientierungssinn sollte ich als nächstes einen Felsen oder ein Pfütchen sehen?“

Dann machst du einen Schritt und siehst, ob die Vorhersage stimmt.

Wenn es falsch ist, änderst du deine Körperhaltung und deinen Gang (Gradientenaktualisierung).

In der Schleife von „Vorhersage - Korrektur - Anpassung“ änderst du dein „Muskelgedächtnis“ (Gewichte)

Wenn du beim 1000. Schritt angelangt bist, kannst du zwar den Felsen am ersten Schritt nicht sehen, aber die Information über diesen Felsen ist in deinem momentanen Gangstil, Schwerpunkt und Orientierungssinn codiert. Es hat sich durch 999-malige „Vorhersage - Korrektur - Anpassung“ übertragen und in deinen Körper integriert.

Das Ergebnis ist, dass dieses Modell ohne jeglichen Attention-Cache durch das Ziel der „Training für die Vorhersage des nächsten Tokens“ die Verlustkurve (blaue Linie) mit zunehmender Leseweite schnell sinkt. Sie liegt fast direkt auf der Kurve des vollständigen Attention-Transformers (orange Linie).

Das bedeutet, dass es einfach durch die Änderung seiner neuronalen Netzwerkparameter (MLP-Gewichte) die Kontextinformationen perfekt codiert und fast den gleichen Effekt wie das Speichern aller Wörter (Full Attention) erzielt.

Im Vergleich dazu ist das TTT-KVB ursprünglich als direkter Ersatz für die Selbst-Attention-Schicht konzipiert. Sein Kerngedanke ist immer noch die „Key-Value-Bindung“ (Key-Value Binding). Das heißt, obwohl es nicht den traditionellen Attention-Mechanismus zur Speicherung des KV Cache verwendet, versucht es, mit dem neuronalen Netzwerk die Abbildungsbeziehung zwischen Key und Value zu lernen.

Das ist wie das Zeichnen einer Karte von jedem Stein in der Höhle, um sie jederzeit abrufen zu können. Selbst Informationen wie die Textur eines Felsens, die nichts mit dem Verlassen der Höhle zu tun haben, werden eingezeichnet. Seine Trainings-effizienz ist relativ langsam.

Die Studie hat dies in den Übergangsexperimenten bewiesen. Nachdem die Forscher das Ziel der Key-Value-Bindung innerhalb der Ebene von TTT-KVB durch das Ziel der end-to-end-Vorhersage des nächsten Tokens ersetzt haben, ist der Evaluationsverlust der Sprachmodellierung deutlich gesunken.

Aus den experimentellen Daten geht hervor, dass diese Änderung tatsächlich eine wesentliche Verbesserung gebracht hat. Bei einem Modell mit 760 Mio. Parametern betrug der Verlust von TTT-KVB bei einem Kontext von 8K 2,818, während er bei der vereinfachten Version mit der Next-Token-Vorhersageverlustfunktion (TTT-E2E alle Schichten MH) auf 2,806 sank.

Diese Verbesserung von 0,012 ist in der Sprachmodell-Evaluation tatsächlich ein signifikanter Unterschied. Dies zeigt, dass das Modell nach der end-to-end-Umgestaltung sicherer und besser darin geworden ist, den nächsten Token vorherzusagen. Und die Fähigkeit für lange Kontexte kann tatsächlich rein durch Lernen während der Tests erworben werden, ohne auf den Attention-Cache angewiesen zu sein.

In dieser Logik wird Gedächtnis nicht mehr als eine Speicherstruktur konzipiert, sondern neu definiert als ein kontinuierlicher Lernprozess. Der Wert des Gedächtnisses liegt nicht darin, die Vergangenheit so vollständig wie möglich zu bewahren, sondern darin, ob es deine nächste Entscheidung verändern kann.

Aber das Problem der früheren dynamischen Evaluation bestand darin, dass es keine stabile Ingenieursmuster gab. Wenn man denselben Ansatz verfolgt, wie kann TTT-E2E diese Probleme überwinden?

Das ist genau das, was Nvidia als zweites tun wird: Mit Meta-Learning und einer Reihe von Ingenieurs-Sicherheitsmechanismen wird dieses end-to-end-Testzeit-Lernen zu einem stabilen und erweiterbaren Kontextgedächtnissystem gemacht.

02 Die Resonanz des Meta-Lernens und die Stabilität der Ingenieursweise

Das Konzept und die Praxis des Meta-Lernens sind tatsächlich auch schon sehr früh aufgetaucht. Eine Linie des expliziten Meta-Lernens wurde bis zur im vergangenen Jahr veröffentlichten Deepmind DiscoRL weitergeführt.

Dies ist das MAML-System von Finn aus dem Jahr 2017. Es besteht aus zwei ineinander geschachtelten Schleifen. Die innere Schleife ist für die Anpassungslearning (Gradientenabstieg) verantwortlich, die äußere Schleife macht das Anpassungslearning effizienter (Lernen der Gradienten der Gradienten). So ist die äußere Schleife

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Google hat gerade die Tabelle des Modellgedächtnisses umgeworfen, und NVIDIA hat wiederum die Aufmerksamkeit revolutioniert.

01 Lernen statt Attention-basiertes Gedächtnis

02 Die Resonanz des Meta-Lernens und die Stabilität der Ingenieursweise