Unglaubliche neue Architektur von Google: Welche Methoden haben die Doubao - Teams ausprobiert, um KI ein Langzeitgedächtnis zu verleihen?

Langzeitgedächtnis wandelt sich von einem technischen Patch in die zentrale Achse der Fähigkeiten großer Modelle.

Vor kurzem hat Google in seiner veröffentlichten Studie "Nested Learning: The Illusion of Deep Learning Architectures" einen neuen Rahmen namens HOPE vorgeschlagen, um das Problem des Langzeitgedächtnisses großer Modelle zu lösen.

Diese Architektur hat große Aufmerksamkeit erregt, denn das Langzeitgedächtnis hat die Entwicklung großer Modelle seit langem geplagt und beeinflusst sogar die Breite und Tiefe der Umsetzung von KI in Agenten.

Heutzutage ist es nicht schwer, von einer KI eine ansprechende Antwort zu bekommen. Schwerer ist es, dass sie nach einer Woche oder einem Wechsel der Arbeitsaufgabe noch die Schlüsseldetails einer früheren Unterhaltung behält und ihr persönliches Gedächtnis über den Benutzer kontinuierlich aktualisiert. Erst dann nähert sich ein großes Modell wirklich einem "kontinuierlich arbeitenden Agenten" an, anstatt ein Einmalgebrauchsprodukt zu sein.

Man kann sagen, dass die "Kurzzeitfähigkeit" eines großen Modells entscheidet, ob es einen Satz sinnvoll formulieren kann, während das Langzeitgedächtnis eigentlich entscheidet, ob es überhaupt als "Assistent" qualifiziert ist.

Deshalb ist es nicht verwunderlich, dass die von Google im letzten Tag des vergangenen Jahres vorgeschlagene Titans-Architektur im Jahr 2025 immer wieder diskutiert wird. Diese Studie versucht nicht, die alte Frage "Wie lang kann der Kontext noch sein?" zu beantworten, sondern geht es um eine wesentlich tiefere Fragestellung:

Wenn die Aufmerksamkeit nur Kurzzeitgedächtnis ist, wie kann ein großes Modell tatsächlich ein echtes Langzeitgedächtnis entwickeln?

Bildquelle: Google

In Titans wird die Self-Attention (Selbstaufmerksamkeitsmechanismus) des Transformers eindeutig als "Kurzzeitsystem" definiert, während ein unabhängiges neuronales Langzeitgedächtnis-Modul für das selektive Speichern und Abrufen von Schlüsselinformationen über Kontextfenster hinweg zuständig ist. Dieser Ansatz hat fast die "Gehirnstruktur" von großen Modellen neu definiert.

Wenn man das vergangene Jahr betrachtet, hat es von Google Titans über ByteDance MemAgent bis zur Google Hope-Architektur echte Fortschritte beim Langzeitgedächtnis von großen Modellen gegeben.

Im vergangenen Jahr haben sowohl das von Google aufbauende Multi-Zeitskalen-Gedächtnissystem als auch die intensive Erforschung im Bereich der überlangen Kontexte, des Agenten-Gedächtnisses und des externen Gedächtnis-Middleware auf denselben Trend hinweisen: Das Langzeitgedächtnis wird allmählich von einem technischen Patches zum Kernaspekt der Fähigkeiten von großen Modellen.

Modelle werden nicht mehr nur danach verglichen, wer das längere Fenster oder die mehr Parameter hat, sondern es geht darum, wer selektiver, stabiler und "menschlicher" denkt. Das Langzeitgedächtnis von großen Modellen ist nicht mehr nur ein Leistungskriterium in Studien, sondern eine Schlüsselkompetenz, die entscheidet, "ob es langfristig genutzt werden kann und ob man ihm vertrauen kann".

Von Titans bis Hope: Das Langzeitgedächtnis legt die Grundlage für Agenten

Mitte August dieses Jahres hat Google für Gemini zwei wichtige Updates vorgestellt: die Funktion "Automatisches Gedächtnis" basierend auf der Chatgeschichte und den "Temporären Chat"-Modus zum Schutz der Privatsphäre.

Wie der Name schon sagt, bedeutet "Automatisches Gedächtnis", dass Gemini durch das Lernen der früheren Chatverläufe die Schlüsseldetails der Unterhaltungen, die Benutzerpräferenzen, den Hintergrund langfristiger Projekte und wiederkehrende Anforderungen speichert und in späteren Antworten aktive, individuelle Antworten geben kann.

Ähnliche Veränderungen treten nicht nur bei Gemini auf. Im vergangenen Jahr haben fast alle führenden KI-Assistenten, von ChatGPT, Doubao bis zum im November vorgestellten iFlytek Spark X1.5, durch die Einführung eines "Langzeitgedächtnis-Moduls" versucht, die Kontinuität von großen Modellen über verschiedene Gespräche und Szenarien hinweg aufrechtzuerhalten, damit die KI das Benutzerprofil, den Status früherer Aufgaben und Schlüsselentscheidungsinformationen aktualisieren und speichern kann.

Bildquelle: iFlytek

Doch wenn man zurückblickt, ist diese Welle von Veränderungen auf der Produktetage nicht isoliert passiert, sondern ist das direkte Ergebnis der technologischen Entwicklung von großen Modellen im Jahr 2025.

Erstens wurde erneut bestätigt, dass ein langer Kontext nicht das Ziel des Gedächtnisses von großen Modellen ist.

Ein überlanger Kontext ist zwar immer noch wichtig, aber er wird zunehmend als "vergrößertes Kurzzeitgedächtnis" angesehen - es ist teuer und es ist nicht möglich zu entscheiden, welche Informationen langfristig gespeichert werden sollen. Die Bedeutung von Titans liegt nicht darin, das Fenster noch länger zu machen, sondern darin, klar zu unterscheiden: Die Aufmerksamkeit ist nur ein Kurzzeitsystem, und das Langzeitgedächtnis muss eine kontinuierlich aktualisierbare Komponente sein.

Im November hat Google sogar vorgeschlagen, den Modell-Trainingsprozess auch als eine Ebene des Gedächtnisses (Nested Learning) zu betrachten und hat die verbesserte Hope-Architektur vorgestellt. Es beginnt, "Gedächtnis" als ein Kontinuum mit mehreren Zeitskalen zu verstehen. Kurzzeitkontext, mittlerer Zustand und langfristige Erfahrungen sind nicht mehr getrennte Module, sondern verteilen sich nach der Aktualisierungsfrequenz und Stabilität in einem einzigen Lernsystem.

Vergleich der Perplexität (links) und des Commonsense-Resonierens (rechts) zwischen Hope, Titans und Transformer-Architekturen. Bildquelle: Google

Gleichzeitig verschiebt sich der Schwerpunkt des Langzeitgedächtnisses von "Texte merken" zu "Erfahrungen merken". Früher war es üblich, eine Vektordatenbank oder ein Wissensrepository für RAG zu verwenden, als ob es der "externe Datenträger" des Modells wäre. Doch jetzt wird diese Methode neu bewertet. Das Langzeitgedächtnis ist nicht nur das Abrufen von Antworten, sondern es muss an der Resonierprozess beteiligt sein und die Entscheidungen und Handlungen des Modells beeinflussen.

Auch im November hat Google den Evo-Memory Benchmark und den ReMem-Rahmen vorgeschlagen, um das Langzeitgedächtnis in den Arbeitsablauf von Agenten zu integrieren: Kann das Modell in aufeinanderfolgenden Aufgaben Erfahrungen sammeln, Strategien reflektieren und diese in späteren Aufgaben tatsächlich anwenden? Das Langzeitgedächtnis ist nicht mehr nur für die Konversation wichtig, sondern es entscheidet direkt, ob ein Agent die Fähigkeit zur kontinuierlichen Weiterentwicklung hat.

Tatsächlich hat das von ByteDance und Tsinghua University gemeinsam vorgeschlagene MemAgent durch das Training des Modells mit verstärkendem Lernen das Modell dazu gebracht, im überlangen Kontext "abzuwägen", sodass es aktiv ein Langzeitgedächtnis entwickelt, anstatt passive Texte zu stapeln. Obwohl diese Ansätze unterschiedlich sind, deuten sie alle darauf hin, dass das Langzeitgedächtnis allmählich zu einer Kernfähigkeit des Modells werden muss, und nicht nur ein technischer Zusatz.

Die chinesische Route für das Langzeitgedächtnis: Welche unterschiedlichen Ansätze haben MiniMax, Doubao und DeepSeek?

Anfang dieses Jahres hat MiniMax die erste offene Quelle eines großen Modells mit linearer Aufmerksamkeitsarchitektur angekündigt. Die Firma hat darauf hingewiesen, dass das "Langzeitgedächtnis" der meisten vorhandenen Agenten eigentlich nur ein externes RAG-Tool ist, was streng genommen kein Gedächtnis ist.

Dies stimmt tatsächlich. In frühen Praktiken war die Kombination aus Vektordatenbank und RAG fast die Standardlösung: Man sucht einfach nach dem, was man sich merken muss. Doch wenn Agenten zunehmend mehrschrittige Aufgaben übernehmen, wird diese "suchen und gehen"-Methode des Gedächtnisses an ihre Grenzen stoßen.

Kürzlich hat das Doubao-Handy die Diskussion über KI-Handys in der Branche ausgelöst. Tatsächlich ist die Erforschung von Doubao im Bereich des Langzeitgedächtnisses im Agenten-System auch sehr repräsentativ. Sein Langzeitgedächtnis ist in den gesamten Arbeitsablauf integriert, um Benutzerprofile, Aufgabenstatus, vorläufige Ergebnisse und sogar fehlgeschlagene Erfahrungen zu speichern.

Grundstruktur von MemAgent. Bildquelle: ByteDance

Ansätze wie MemAgent erweitern im Wesentlichen nicht die Länge des Kontexts, sondern trainieren das Modell, zu verstehen, welche Informationen die nächste Entscheidung beeinflussen. Kurz gesagt, Gedächtnis ist nicht mehr nur das Suchen von Informationen, sondern es beteiligt sich an der Beurteilung.

Von dieser Perspektive aus gesehen, ist das von ByteDance und Tsinghua University gemeinsam vorgeschlagene MemAgent keine isolierte akademische Arbeit. Es geht nicht darum, Texte zu komprimieren oder die Kapazität zu erweitern, sondern durch verstärkendes Lernen, dass das Modell im überlangen Kontext "abwägt". Das Modell muss verstehen, welche Informationen beibehalten werden sollen, welche nur kurzzeitig verwendet werden sollen und welche sogar aktiv vergessen werden sollten.

Dies zeigt auch eine sehr klare Einschätzung: Wenn das Langzeitgedächtnis die Handlungsstrategie des Modells nicht verändern kann, ist es im Wesentlichen nur ein technischer Cache.

Wie bereits erwähnt, betonen sowohl die Branchenpraxis als auch verschiedene Systementwürfe im Bereich von Agenten die Bewahrung von "Prozessinformationen". Dies erklärt auch, warum verstärkendes Lernen jetzt für das Training des "Gedächtnisverhaltens" verwendet wird, anstatt einfach die Wissensbasis zu erweitern.

Im Gegensatz dazu hat MiniMax Anfang dieses Jahres durch Architekturinnovationen wie lineare Aufmerksamkeit die maximale Länge des verarbeitbaren Kontexts eines Modells auf Millionen oder sogar Hundermillionen von Tokens erhöht.

Dies ist nicht nur um die Leistungszahlen zu verbessern, sondern auch um die Systemkomplexität zu reduzieren. Wenn das Modell selbst mehr Inhalte auf einmal "sehen" kann, können einige externes Gedächtnis, die früher häufig abgerufen werden mussten, nun in den Kontext aufgenommen werden.

Aber die Praxis von MiniMax hält nicht bei "überlangen Kontextfenstern" an.

Bildquelle: MiniMax

Stattdessen hat es auf dieser Grundlage eine unabhängige Gedächtnisebene eingeführt, um langfristiges Wissen und Erfahrungen zu verwalten. Zuerst wird das Problem "passt es rein?" gelöst, bevor man überlegt, "sollte es behalten werden?". In diesem Rahmen hängt das Langzeitgedächtnis nicht mehr vollständig von häufigen RAG-Aufrufen ab, sondern durch einen größeren internen Blickwinkel des Modells und weniger Systemwechsel wird die Gesamtkomplexität reduziert.

Der Ansatz von DeepSeek stellt einen interessanten Gegensatz dar. DeepSeek setzt nicht auf komplexe Langzeitgedächtnis-Mechanismen im Modell selbst, sondern macht es explizit extern, indem es RAG, Vektordatenbanken oder verschiedene Gedächtnis-Komponenten verwendet. Dies ist nicht, um das Problem zu umgehen, sondern basiert auf einer eher vorsichtigen Einschätzung:

Das Langzeitgedächtnis hängt stark von konkreten Szenarien ab. Die benötigten Gedächtnisformen in verschiedenen Anwendungen variieren stark. Anstatt im Modell eine einheitliche Lösung zu finden, bietet es lieber einen hochwertigen Resonierkern an, damit die Entwickler ihre eigenen Gedächtnis-Lösungen zusammenstellen können.

Abschluss

Im Jahr 2025 hat sich beim Langzeitgedächtnis von großen Modellen nicht nur ein einzelner Indikator verbessert, sondern seine Rolle wurde grundlegend neu definiert. Vom frühen "externen Datenträger" abhängig von RAG bis heute, wo es allmählich in die Modellstruktur und den Arbeitsablauf von Agenten integriert wird, wird das Langzeitgedächtnis zu einem Teil, der Entscheidungen beeinflusst und Verhaltensweisen formt, anstatt nur ein passiver Behälter für die Speicherung von Informationen zu sein.

Vielleicht kann man sagen, dass der wahre Unterschied zwischen großen Modellen in Zukunft nicht nur in der Größe des Modells oder der Resoniergeschwindigkeit liegt, sondern auch in einem reifen, kontrollierbaren und kontinuierlich entwickelbaren Gedächtnis-Mechanismus. Denn nur wenn ein Modell wirklich etwas merken und verwalten kann, besteht die Möglichkeit, dass es langfristig verwendet, wiederholt vertraut und sogar größere Entscheidungsgewalt übertragen werden kann.

Dieser Artikel stammt aus dem WeChat-Account "Lei Technology". Autor: Lei Technology. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die neue Architektur von Google ist unglaublich! Um den KI ein Langzeitgedächtnis zu verleihen, welche Methoden haben die Doubao-Teams ausprobiert?

Von Titans bis Hope: Das Langzeitgedächtnis legt die Grundlage für Agenten

Die chinesische Route für das Langzeitgedächtnis: Welche unterschiedlichen Ansätze haben MiniMax, Doubao und DeepSeek?

Abschluss