Das große Sprachmodell hat erneut Schwächen aufgedeckt: Es kann alte Erinnerungen nicht vergessen und neue Erinnerungen nicht unterscheiden, was zu einem drastischen Rückgang der Genauigkeit führt.
Große Modelle haben Probleme: Sie haben ein zu gutes Gedächtnis, können alte Erinnerungen nicht vergessen und unterscheiden auch nicht zwischen neuen Erinnerungen! Kognitive Tests basierend auf Arbeitsgedächtnis zeigen, dass die Kontextsuche bei LLMs (Large Language Models) beschränkt ist. In einer einfachen Suchaufgabe, bei der Menschen ständig eine hohe Richtigkeit aufrechterhalten, verwechselt das Modell fast immer ungültige Informationen mit der richtigen Antwort.
Es wird immer deutlicher, dass das „Suchen nach Informationen“ in großen Sprachmodellen (LLMs) nicht einfach wie das Nachschlagen in einem Lexikon ist, sondern eng mit der Fähigkeit zum „Schreiben von Informationen“ verbunden ist.
Man nimmt allgemein an, dass das Einfügen eines längeren Kontexts in das Modell die Suchgenauigkeit verbessert. Allerdings gibt es „Wechselwirkungen“ innerhalb des Kontexts, und diese Erscheinung wird selten untersucht.
Um dieses Problem zu verstehen, haben Forscher der Universität von Virginia und des Neurowissenschaftszentrums der New York University das Konzept der „proaktiven Interferenz“ aus der Psychologie übernommen: Frühere Informationen behindern uns bei der Erinnerung an spätere, neuere Inhalte.
Bei Menschen bedeutet eine stärkere Interferenz oft ein kleineres Arbeitsgedächtnisvolumen.
Deshalb hat das Forschungs-Team ein neues Testverfahren namens PI-LLM mithilfe eines klassischen Paradigmas der Kognitionswissenschaft entwickelt. Ähnlich wie bei einer Fernsehserie werden dem Modell nacheinander eine Reihe von semantisch verwandten „Schlüssel (key) - Wert (value)“ - Paaren (z. B. „key Apfel, value rot“) präsentiert und diese Werte ständig aktualisiert. Am Ende wird dem Modell nur gefragt, „Was ist der neueste Wert für einen bestimmten Schlüssel?“
Obwohl der neueste Wert direkt vor der Frage steht, sinkt die Richtigkeit des Modells logarithmisch nahezu auf Null, wenn die Anzahl der Störungen zuvor zunimmt. Der Hauptgrund für die Fehler ist, dass das Modell alte Werte als neue Antworten nimmt.
Die Forscher haben versucht, die Leistung des Modells durch Prompt-Engineering zu verbessern, z. B. indem sie es explizit anweisen, „alle vorherigen alten Informationen zu ignorieren“. Die Ergebnisse waren jedoch begrenzt.
Dies zeigt, dass LLMs nicht einfach nur das Problem haben, Informationen „zu lesen“ oder „nicht zu lesen“, sondern wie Menschen auch „Arbeitsgedächtnisengpässe“ haben: Selbst wenn der Kontext zugänglich ist, können sie störende Informationen nicht flexibel unterdrücken.
Als nächster Schritt sind möglicherweise neue Methoden erforderlich, damit das Modell lernt, beim Suchen unnötige Informationen aktiv „zu vergessen“.
Link zur Studie: https://arxiv.org/abs/2506.08184 Link zum Repository: https://github.com/zhuangziGiantfish/Unable-to-Forget Interaktive Demonstration: https://zhuangzigiantfish.github.io/Unable-to-Forget/
Diese Studie hat ein Informationssuchproblem identifiziert, das alle großen Sprachmodelle (LLMs) betrifft.
Diese Aufgabe ist für Menschen nicht schwierig, aber alle LLMs machen signifikante Fehler, was auch die globale Gedächtnisleistung (memory) und die Fähigkeit zur langen logischen Schlussfolgerung (long reasoning) beeinträchtigt.
Die Studie wurde für das ICML 2025 Workshop on Long Context Foundation Models akzeptiert.
Diese Forschung wurde gemeinsam von Wang Chupei (Bachelor of Physics an der Universität von Virginia, interdisziplinärer Forscher mit Hintergrund in Philosophie) und Sun Jiaqiu (Doktorand am Neurowissenschaftszentrum der New York University, Schüler von Tian Xing, Assistentprofessor für Neurowissenschaften und Kognitionswissenschaft an der Shanghai University of New York und globaler Adjunctprofessor an der New York University) geleitet. Beide sind Erstautoren und korrespondierende Autoren. Beide Autoren haben vielfältige Hintergründe in Physik, Architektur und Philosophie und widmen sich der Erforschung der Natur der Künstlichen Intelligenz anhand des Versagens von Kognitionssystemen.
Zheng Zheyang (Gastforscher am Flatiron Institute CCN, Doktorand an der New York University) und Kuang Yilun (Doktorand am CILVR Lab der New York University, Betreuer: Yann LeCun) haben bei der Initiierung und Förderung des Projekts wichtige Beratungen und Vorschläge geleistet.
Experimentelle Kernbedingungen
Eingabedaten für die Aufgabe
Nehmen wir an, dass dem Modell eine Reihe von häufig aktualisierten Daten (key - value Paaren) präsentiert wird, wie beispielsweise:
„Blutdruck = 120, Bp = 135, Bp = 119“
LLM - Aufgabe: Abfrage
Was ist der letzte Wert für den Blutdruck (BP)?
Ergebnisse
Alle derzeitigen gängigen LLMs (von den neuesten GPT - 4.1, Llama - 4, DeepSeek - V3 bis hin zu Llama - 3, Qwen - 2.5 usw., mit Parametergrößen zwischen 0,6 Milliarden und über 600 Milliarden) können nicht stabil den letzten Wert extrahieren, und die Fehler folgen einem klaren mathematischen Muster, einem logarithmischen Abfall.
Diskussion
Für Menschen ist diese Aufgabe sehr einfach, und die Antwort ist offensichtlich der letzte Wert, 119. Denn diese Aufgabe hat keine Schwierigkeiten bei der Suche.
Dieser Aufgabenmodus ist in allen Bereichen, in denen dynamische Daten verfolgt werden müssen, wie in der Finanzbranche (Kontostandsänderungen) und in der Medizin (Verfolgung von physiologischen Indikatoren), äußerst verbreitet.
Experimentelle Ergebnisse
Haupterkenntnis: Ein universeller Abfallkurve
Mit zunehmender Anzahl der Aktualisierungen zeigt die Genauigkeit aller Modelle einen einheitlichen logarithmisch - linearen Abfall (log - linearer Rückgang).
Mit zunehmender Anzahl der Störungen sinkt die Genauigkeit schließlich stabil auf 0 %. Zu diesem Zeitpunkt funktionieren alle Modelle vollständig fehlerhaft, produzieren zu 100 % Halluzinationen (hallucination) und können zu 100 % keine richtigen Antworten geben.
Dieser einheitliche Abfallmuster überwindet die Unterschiede in Modellarchitektur, Größe und Trainingsressourcen und deutet stark darauf hin, dass die Ursache des Problems möglicherweise auf grundlegenden Ebenen wie der Transformer - Architektur oder dem darauf basierenden Attention - Mechanismus liegt.
Wenn ein Sprachmodell nach bestimmten Zielinformationen in einer großen Anzahl von semantisch ähnlichen Störungen suchen muss, sinkt seine Suchgenauigkeit signifikant und kontinuierlich. Dieser logarithmisch - lineare Abfalltrend wurde bei allen gängigen Modellen beobachtet.
Beispiel für die grundlegende Eingabe des LLM - PI - Tests: Das Modell muss einen kontinuierlich aktualisierten Strom von Schlüssel - Wert - Paaren verarbeiten (z. B. „visuelle Kunst“ entspricht mehreren Werten) und nach Abschluss der Aktualisierung den letzten Wert für jeden Schlüssel genau extrahieren (im Bild fett markiert).
Experimentelles Setup
Im Test muss das Modell 1 bis 46 verschiedene Schlüssel verarbeiten, und die Anzahl der Aktualisierungen für jeden Schlüssel liegt zwischen 1 und 400 Mal.
Nachdem diese Aktualisierungen zufällig und in ungeordneter Reihenfolge gemischt wurden, wird die Richtigkeit des Modells bei der korrekten Extraktion des letzten Werts (neuesten Werts) für jeden Schlüssel gemessen.
Vergleich mit Menschen
Diese Aufgabe ist im Wesentlichen sehr einfach:
(1) Es ist keine komplizierte Suche erforderlich.
(2) Es gibt keine logischen Schwierigkeiten.
Menschen können ihre Aufmerksamkeit leicht einstellen und sich nur auf die neuesten Informationen konzentrieren. Die Störung durch vorherige Inhalte ist begrenzt.
Die Analyse der falschen Antworten zeigt, dass das Modell oft irrelevante vorherige Aktualisierungswerte als endgültige Antwort extrahiert. Dies zeigt, dass aktuelle LLMs bei der Verarbeitung solcher Informationsströme Schwierigkeiten haben, nicht - Ziel - (alte) Informationen effektiv zu ignorieren oder zu filtern.
Eine weitere Analyse der Fehlerverteilung zeigt, dass LLMs ein Verhaltensmuster ähnlich einem begrenzten Arbeitsgedächtnisvolumen aufweisen: Sie scheinen Schlüssel - Wert - Paare in einem begrenzten Repräsentationsraum zu speichern. Sobald die Anzahl der Aktualisierungen dieses Volumen überschreitet, versagt die Suchleistung vollständig.
Die Forscher haben auch festgestellt, dass es mehrere Möglichkeiten gibt, ein Suchversagen auszulösen, die alle die gleiche logarithmische Abfallkurve aufweisen: 1) Die Anzahl der gleichzeitig zu verfolgenden Schlüssel erhöhen oder 2) die Tokenlänge der zugeordneten Werte erhöhen.
Alle diese Phänomene haben einen signifikanten Einfluss auf die Suchgenauigkeit von LLMs. Ähnliche Phänomene wurden auch in menschlichen Experimenten beobachtet, aber das menschliche Arbeitsgedächtnis versagt in solchen Aufgaben nicht vollständig.
Interpretation des Phänomens: „Unable to Forget“
Große Modelle können irrelevante Informationen nicht ignorieren oder vergessen, was zu einem vollständigen Suchversagen führt:
Besonders un-intuitiv ist, dass selbst die intuitivsten Strategien der natürlichen Sprachintervention, wie z. B. die explizite Angabe des Antwortbereichs im Input oder die direkte Anweisung an das Modell, „auf die neuesten Aktualisierungen zu achten“ oder „frühere Informationen zu vergessen“, die Leistung des Modells nicht signifikant verbessern können.
Dies zeigt, dass die Störungseffekte so stark sind, dass sie klare Anweisungen in natürlicher Sprache überdecken und das Modell gezwungen wird, auf alte Informationen zu achten.
Daraus lässt sich schließen, dass es wahrscheinlich erforderlich ist, die Modellarchitektur selbst oder das Trainingsverfahren grundlegend anzupassen, anstatt nur auf Prompt - Engineering zu vertrauen.
Warum haben LLMs Schwierigkeiten, die neuesten Informationen stabil zu extrahieren?
Die Analyse der Fehler zeigt, dass das Versagen von LLMs keine zufälligen Fehler sind, sondern systematisch von wiederholten Aktualisierungen beeinflusst werden.
Mit zunehmender Störung zeigt sich ein klarer evolutionärer Verlauf der Fehler:
Anfangsphase: Nahegelegene Störungen dominieren. Die Suchfehler stammen hauptsächlich von Werten, die direkt vor dem Ende liegen.
Mittlere Phase: Der Störungsbereich erweitert sich. Die Fehlerquellen erstrecken sich deutlich auf alle Bereiche des gesamten Textes.
Spätphase: Völlige Verwirrung. Die Ausgabe des Modells ist stark gestreut, und es werden viele Werte extrahiert, die nie eingegeben wurden.
Die Reaktionen des Modells auf einen bestimmten Schlüssel werden nach der Position ihres Werts im Aktualisierungsstrom (in 11 Intervalle aufgeteilt, Bin 1 am frühesten - Bin 11 am neuesten) statistisch ausgewertet.
Die Ergebnisse zeigen: Mit zunehmender Anzahl der Aktualisierungen (von links nach rechts in den Diagrammen) sinkt der Anteil der korrekten Treffer des letzten Werts (hellbraun) rapide. Noch bemerkenswerter ist, dass die falschen Reaktionen von einer Hauptanhäufung in der Nähe der letzten Aktualisierung (z. B. Bin 10 - 11, möglicherweise durch die Verwechslung benachbarter Aktualisierungen) allmählich in frühere Intervalle (Bin 1 - 9) verschieben.
Darüber hinaus nehmen auch die Fehler bei der Rückgabe von nicht - existierenden Werten („Halluzination“, hellgrau) und die fehlenden Rückgaben („Versagen“, dunkelgrau) dramatisch zu. Gemeinsam zeichnen sie ein Bild des Zusammenbruchs des Gedächtnis - Suchsystems des Modells unter Informationsüberlastung.
Das vollständige Versagen der Top - Down - Steuerung
Im Gegensatz zu Menschen wird die Leistung von LLMs bei solchen Extraktionsaufgaben fast nicht von „Top - Down“ - Prompt - Hinweisen beeinflusst. Dies erklärt auch, warum die Chain - of - Thought (CoT) - Modelle keine Verbesserung bei diesem Problem zeigen.
Das Versagen von Prompts in natürlicher Sprache: In dieser Studie wurden verschiedene Varianten von Prompts getestet, die das Modell explizit anweisen, auf die neuesten Informationen zu achten oder historische Störungen zu ignorieren (z. B. die explizite Kennzeichnung des Antwortbereichs, „Konzentrieren Sie sich auf den folgenden Text“ oder die Anweisung „Vergessen Sie die vorherigen Inhalte“). Ergebnis: Alle Interventionen in natürlicher Sprache konnten die Extraktionsgenauigkeit des Modells nicht