StartseiteArtikel

Wiederherstellung der Gedächtnisarchitektur: LLM installiert gerade ein "Betriebssystem".

机器之心2025-07-16 17:02
Wir müssen dem großen Modell ein "vollständiges Leben" geben.

Große Modelle mit einem sehr langen Kontextfenster können auch häufig "vergessen". Das "Gedächtnis" muss also verwaltet werden.

Es ist allgemein bekannt, dass die Kontextfenster moderner großer Sprachmodelle (LLMs) in der Regel begrenzt sind. Die meisten Modelle können nur Tausende bis Zehntausende von Tokens verarbeiten. Beispielsweise hatte der frühe GPT-3 nur etwa 2.048 Tokens. In letzter Zeit haben einige Modelle jedoch das Kontextfenster auf Millionen oder sogar Zehn Millionen Tokens erweitert (z. B. behauptet Meta's Llama 4 Scout, 10 Millionen Tokens verarbeiten zu können).

Das Bild zeigt die Entwicklung der Größe der Kontextfenster von LLMs.

Hinweis: Die Anzahl der Tokens ist ein ungefährer Maximalwert. "GPT-4.1" bezieht sich auf die im April 2025 aktualisierte Version von GPT-4. "Scout" ist eine Variante von Llama 4 mit 17 Milliarden Parametern, die speziell für lange Kontexte entwickelt wurde.

LLMs haben ein inhärentes "Gedächtnisdefizit", d. h. ihre Kontextfenster sind begrenzt. Dies schränkt ihre Fähigkeit stark ein, in mehrmaligen, langfristigen Interaktionen Konsistenz aufrechtzuerhalten.

Deshalb haben moderne LLMs in der Regel Schwierigkeiten, langfristige Erinnerungen aufrechtzuerhalten. Dies ist für viele Anwendungen ziemlich problematisch, denn Gedächtnis ist der Schlüssel für Reflexion und Planung und ein unverzichtbarer Bestandteil von Agentensystemen.

Übersicht über ein auf LLMs basierendes autonomes Agentensystem. Quelle: Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

In letzter Zeit gibt es vermehrt Forschungen zum Gedächtnis von großen Modellen. Das kürzlich veröffentlichte MemOS hat beispielsweise viel Aufmerksamkeit erregt.

Im Gegensatz zu herkömmlichen Retrieval-augmented Generation (RAG) -Ansätzen oder reinen parametrischen Speichern betrachtet MemOS das "Gedächtnis" als eine ebenso wichtige Systemressource wie die Rechenleistung. Es verwaltet kontinuierlich das langfristige Gedächtnis von großen Modellen, koordiniert, fusioniert, archiviert und verwaltet die Berechtigungen von Klartext, Aktivierungszuständen und parametrischen Erinnerungen in einem einzigen Rahmen, sodass die großen Modelle die Fähigkeit zur kontinuierlichen Evolution und Selbstaktualisierung erhalten.

Das Gedächtnis von großen Modellen ist eng mit der Fähigkeit zur Verarbeitung langer Kontexte verbunden

Die zuvor besprochenen großen Modelle können eine große Anzahl von Tokens verarbeiten, sogar im Bereich von Zehn Millionen Tokens. Dies alles gehört zur Fähigkeit von LLMs, lange Kontexte zu verarbeiten. Die praktische Erfahrung mit LLMs zeigt, dass Modelle mit einer starken Fähigkeit zur Verarbeitung langer Kontexte auch ein stärkeres Gedächtnis haben.

Langkontext (Long Context)

  • Bezieht sich auf die Länge des historischen Textes, den das Modell während des aktuellen Inferenzprozesses "sehen" kann.
  • Im Wesentlichen ist es die Länge der Sequenz, die auf einmal in das Modell eingegeben wird.
  • Wird verwendet, um Aufgaben wie Dokumenten-Fragen-Antworten, mehrmalige Dialoge und Code-Analysen zu lösen, bei denen der Kontext beibehalten werden muss.

Die "Fähigkeit zur Verarbeitung langer Kontexte" umfasst:

Fähigkeit zur Längenverallgemeinerung: Die Fähigkeit des Modells, auf längere Sequenzen zu extrapolieren, die es während des Trainings nicht gesehen hat. Wenn die Sequenz länger als die Trainingslänge ist, können einige Modelle katastrophal versagen.

Effiziente Aufmerksamkeitsfähigkeit: Mechanismen (subquadratische Algorithmen), um die Berechnungs- und Speicherverbrauch bei langen Sequenzen zu reduzieren. Dies kann approximative Aufmerksamkeit, sparse Muster oder völlig alternative Architekturen umfassen.

Fähigkeit zur Informationsaufbewahrung: Bezieht sich auf die Fähigkeit des Modells, Informationen aus weiter entfernten Teilen des Kontexts tatsächlich zu nutzen. Wenn das Modell nach einer bestimmten Position den Kontextinhalt tatsächlich ignoriert, ist ein großes Kontextfenster wirkungslos. Bei einem schlechten Training kann es zu einem Abfall der Aufmerksamkeitsgewichte oder zum Verlust des Kontexts nach einer bestimmten Länge kommen.

Fähigkeit zur Promptgestaltung und -nutzung: Untersuchung, wie Prompts gestaltet werden können, um die Vorteile eines langen Kontexts optimal auszunutzen.

Gedächtnis (Memory)

  • Bezieht sich auf die Informationen, die das Modell über mehrere Dialoge oder Nutzungen hinweg behält.
  • Es ist ein Persistenzmechanismus, der Informationen über Benutzer, Dialoge, Präferenzen usw. aufzeichnet.

Aurimas Griciūnas, Gründer und CEO von SwirlAI, glaubt, dass das Gedächtnis von LLMs in die folgenden Typen unterteilt werden kann:

1. Ereignisgedächtnis - Dieser Gedächtnistyp enthält die vergangenen Interaktionen und ausgeführten Aktionen des Agenten. Wenn eine Aktion abgeschlossen ist, schreibt das Kontrollsystem die Informationen über diese Aktion in einen persistenten Speicher, um sie später aufrufen oder zurückverfolgen zu können.

2. Semantisches Gedächtnis - Das semantische Gedächtnis umfasst die zugänglichen externen Wissensinformationen sowie das Verständnis des Agenten über seinen eigenen Zustand und seine Fähigkeiten. Dieses Gedächtnis kann sowohl Hintergrundwissen sein, das nur intern für den Agenten sichtbar ist, als auch ein "grounding context", der verwendet wird, um den Informationsbereich einzuschränken und die Genauigkeit der Antworten zu verbessern, indem aus der riesigen Menge an Internetdaten die relevanten Informationen für die aktuelle Aufgabe ausgewählt werden.

3. Prozedurales Gedächtnis - Das prozedurale Gedächtnis bezieht sich auf die strukturellen Informationen, die mit dem Betriebssystem des Systems verbunden sind, wie beispielsweise das Format des Systemprompts, die aufrufbaren Tools und die voreingestellten Verhaltensgrenzen (guardrails).

4. In bestimmten Aufgaben-Szenarien ruft das Agentensystem bei Bedarf relevante Informationen aus dem Langzeitgedächtnis ab und speichert sie temporär im lokalen Cache, um schnellen Zugriff und effiziente Aufgabenausführung zu ermöglichen.

5. Die Informationen, die aus dem Langzeitgedächtnis abgerufen werden, und die Informationen im aktuellen lokalen Cache bilden zusammen das Arbeitsgedächtnis (auch Kurzzeitgedächtnis) des Agenten. Diese Informationen werden zu einem Prompt zusammengefasst, der an das große Sprachmodell (LLM) übergeben wird, um seine nachfolgenden Handlungsanweisungen oder Aufgabenantworten zu steuern.

Wie in der Abbildung gezeigt, werden in der Regel die Typen 1 - 3 als Langzeitgedächtnis und Typ 5 als Kurzzeitgedächtnis bezeichnet.

Die Fähigkeit zur Verarbeitung langer Kontexte und das Gedächtnis können zusammenarbeiten:

Informationen aus dem Gedächtnissystem (z. B. Benutzerpräferenzen) können in den Kontext eingefügt werden und Teil des Prompts sein;

Ein langes Kontextfenster kann dem Modell helfen, im aktuellen Dialog das Kurzzeit-"Gedächtnis" aufrechtzuerhalten und weniger auf das Gedächtnissystem zu verlassen.

Verschiedene Methoden zur Implementierung des Gedächtnisses von LLMs

Methoden für lange Kontexte

Wie bereits erwähnt, kann es passieren, dass ein LLM vergisst, was der Benutzer bevorzugt, die gleichen Fragen wiederholt oder sogar Tatsachen widerspricht, die zuvor bestätigt wurden, wenn der Dialog länger als das Kontextfenster ist. Die direkteste Methode, um die Gedächtnisfähigkeit eines LLMs zu verbessern, besteht darin, seine Fähigkeit zur Verarbeitung langer Kontexte zu verbessern. Derzeit gibt es die folgenden Methoden, um die Fähigkeit von LLMs zur Verarbeitung langer Kontexte zu verbessern:

1. RAG (Retrieval-augmented Generation) ist eine sehr allgemein anwendbare Methode, um ein Wissensverzeichnis aufzubauen und das LLM zu steuern. Indem strukturierte oder unstrukturierte Daten in eine suchbare semantische Darstellung umgewandelt werden, implementiert RAG den Prozess von "erst suchen, dann generieren", sodass das LLM externe Wissen nutzen kann, um auf Faktenfragen zu antworten und Halluzinationen zu reduzieren.

Die RAG-Architektur unterstützt die dynamische Aktualisierung von Dokumenten, was es erleichtert, ein realzeitfähiges, erweiterbares und bearbeitbares Wissenssystem aufzubauen. Dies bildet die Grundlage für die nachfolgende Konstruktion des Gedächtnisses von LLMs und die Gestaltung des Gedächtnissystems.

Das Bild vergleicht den RAG-Prozess mit der reinen Methode für lange Kontexte. RAG ist effizient, kann aber indirekten Kontext verpassen. Die Methode für lange Kontexte ist zwar umfassend, erfordert aber, dass das Modell sehr große Eingaben verarbeiten muss.

2. Hierarchische Zusammenfassung: Beim Zusammenfassen eines Buches kann man jedes Kapitel rekursiv zusammenfassen, um eine Zwischenzusammenfassung zu erhalten, und dann diese Zwischenzusammenfassungen weiter zusammenfassen, und so weiter. Diese Methode kann Eingaben verarbeiten, die viel länger als das Kontextfenster des Modells sind, aber der Prozess ist aufwändig und es können Fehler in den mehreren Zusammenfassungsschritten auftreten und akkumulieren.

3. Schiebendes Fenster-Inferenz: Bei Aufgaben wie der Lesekomprehension von langen Texten kann man das Modell auf ein schiebendes Fenster anwenden (z. B. von Abschnitt 1 - 5, dann von Abschnitt 2 - 6, und so weiter) und dann die Ausgaben der einzelnen Fenster auf irgendeine Weise oder mit einem sekundären Modell zusammenfassen.

Forscher haben verschiedene algorithmische Ansätze erforscht, um das Kontextfenster zu erweitern. Im Allgemeinen können diese Methoden in die folgenden Kategorien unterteilt werden: (a) Positionskodierungsmethoden für die Längenextrapolation, (b) effiziente oder sparse Aufmerksamkeitsarchitekturen, (c) alternative Sequenzmodelle (anstelle der Selbstaufmerksamkeit) und (d) gemischte oder gedächtnisgestützte Methoden.

Um mehr über die Details der langen Kontextfenster von LLMs zu erfahren, können Sie den Artikel von Dr. Adnan Masood lesen:

Link zum Artikel: https://medium.com/%40adnanmasood/long-context-windows-in-large-language-models-applications-in-comprehension-and-code-03bf4027066f

Methoden für das Gedächtnis

Obwohl die Fähigkeit zur Verarbeitung von Kontexten eng mit dem Gedächtnis von großen Modellen verbunden ist, kann das Kontextfenster nicht direkt als Gedächtnis angesehen werden.

Nehmen wir als Beispiel die Entwicklung eines Chatbots. Der Chatbot muss sich an die vorherigen Äußerungen des Benutzers im Dialog erinnern. Mit zunehmender Länge des Dialogs wird die Gedächtnisverwaltung die Informationen aus dem Eingabekontext entfernen und in einer durchsuchbaren, dauerhaften Datenbank speichern. Gleichzeitig werden die Informationen zusammengefasst, um die relevanten Fakten im Eingabekontext zu behalten. Außerdem werden bei Bedarf die relevanten Inhalte aus früheren Dialogen wiederhergestellt. Dieser Mechanismus ermöglicht es dem Chatbot, die aktuell relevantesten Informationen im Eingabekontext-Gedächtnis zu behalten, wenn er die nächste Antwort generiert.

Die auf Gedächtnis basierenden Methoden sehen sehr ähnlich wie RAG aus, und tatsächlich sind sie es auch. Im Allgemeinen können sie in zwei Typen unterteilt werden.

Fixes Gedächtnispool

Eine Methode verwendet einen externen Encoder, um Wissen in das Gedächtnispool einzufügen. Beispielsweise zielt das Memory Network darauf ab, das Vergessensproblem in RNNs zu lösen. Spätere Arbeiten berechnen die gewichtete Summe des gesamten Gedächtnispools, um einen repräsentativen Vektor für das Gedächtnis zu erhalten. Das am besten bekannte Beispiel ist das MemoryLLM, das ein eingebautes Gedächtn