2026, der Beginn der Ära des KI-Gedächtnisses
Kürzlich hat LMArena.ai eine Statistik über die Veränderungen der Marktpositionen globaler Large Language Models (LLMs) erstellt und dabei eine interessante Entdeckung gemacht:
Seit Mitte 2023 wurde der Iterationszyklus von State-of-the-Art (SOTA) Modellen auf nur 35 Tage verkürzt. Ein einstiger SOTA-Model kann innerhalb von nur fünf Monaten aus den Top 5 fallen und nach sieben Monaten nicht einmal die Schwelle für die Top 10 erreichen.
Trotz des ständigen Updates von SOTA-Modellen und der damit verbundenen Fortschritte gibt es jedoch immer weniger neue, aufsehenerregende Produkte wie ChatGPT oder Deepseek. Der technologische Fortschritt scheint in eine Phase der Marginalverbesserungen geraten zu sein, in der es schwierig ist, größere Durchbrüche zu erzielen.
Im krassen Gegensatz zur allmählichen Verlangsamung der Modellentwicklung steht die lebhafte Aktivität auf dem Gebiet des künstlichen Gedächtnisses in den letzten zwei Jahren.
Anfang 2023 begannen die ersten Schritte mit der Entwicklung von Vektordatbanken wie Milvus, Pinecone und Faiss.
Im Laufe des folgenden Jahres, basierend auf etablierten semantischen und wissensbasierten Graphen sowie Schlüsselwort-Suchalgorithmen, tauchten zwischen 2024 und 2025 eine Vielzahl von künstlichen Gedächtnis-Frameworks wie Letta (MemGPT), Mem0, MemU und MemOS auf. Auf GitHub gibt es so viele Mem-"X"-Produkte, dass man fast ein Memory-Spiel daraus machen könnte.
Die Begeisterung hat sich schnell auf die Modelle-Entwickler ausgeweitet. Vor einer Woche wurde bekannt, dass Claude in seiner Cowork-Umgebung die Gedächtnisfähigkeit seiner Modelle verbessern will. Noch bevor die Diskussionen um diesen Bericht abgeklungen waren, hat Google seine neuesten Ergebnisse in der Nested Learning-Technologie vorgestellt. Die Modelle können nun ihre Parameter basierend auf der Kontextanalyse automatisch anpassen, um ein Gedächtnis zu entwickeln. Dies hat erneut für Aufsehen in der Branche gesorgt.
Auf der Anwendungsseite haben sich in Bereichen wie Code-Vervollständigung, emotionaler Begleitung und intelligenten Kundensupporten immer mehr erfolgreiche Geschäftsmodelle mit der Kombination von Modellen und Gedächtnis etabliert. In diesem Zusammenhang rücken Unternehmen wie Red Bear AI, die sich auf Lösungen für künstliche Gedächtnisse spezialisieren, in den Fokus der Branche.
Es ist unbestritten, dass das Gedächtnis zum neuen Schlüsselpunkt in der Entwicklung von LLMs geworden ist. Doch was die Integration von Gedächtnis in LLMs und die Verbesserung ihrer Gedächtnisfähigkeit angeht, gibt es möglicherweise drei Missverständnisse in der Branche.
Missverständnis 1: Gedächtnis = RAG + langer Kontext?
Wendeliang, der Gründer von Red Bear AI, ist ein erfahrener Insider in der Branche. Seit der Gründung seines Unternehmens muss er jedoch täglich Fragen von Investoren und Kunden wie "Wer sind Ihre Wettbewerber?" beantworten.
Diese Frage scheint einfach, doch die Antwort ist schwierig: Wenn man sagt, man habe keine Wettbewerber, wirkt man arrogant. Wenn man aber Wettbewerber nennt, ist es schwierig, echte Vergleichspartner zu finden.
Während der Boomphase von AI-Infrastruktur zwischen 2023 und 2024 war die Retrieval Augmented Generation (RAG) Technologie fast synonym mit künstlichem Gedächtnis. Indem man einem Modell eine externe Vektordatbank hinzufügt und darin private Unternehmensdaten und Fachliteratur speichert, kann das Modell Informationen und Wissen nutzen, das nicht in den Trainingsdaten enthalten war.
Zu dieser Zeit fragten Investoren bei jedem Projekt nach der RAG-Leistung, und Kunden verglichen die Suchgenauigkeit von RAG-Systemen. Es schien, als könne man alle Probleme mit dem mangelnden Gedächtnis von AI-Modellen einfach durch die Erweiterung des Kontextfensters und die Optimierung von Suchalgorithmen lösen.
Plötzlich gab es weltweit hunderte von Teams, die an RAG-Frameworks, RAG-Lösungen oder der Installation privater Wissensdatenbanken arbeiteten. Große Unternehmen wie Feishu, DingTalk und WeChat Work konnten dank ihrer Standardisierung und Datensammlung Standardlösungen anbieten, während kleinere Teams sich auf vertikale Märkte spezialisierten.
In der Geschäftswelt gilt: Je breiter ein Bewusstsein verbreitet ist, desto wahrscheinlicher ist es, dass es richtig ist. Doch gleichzeitig ist es auch ein Indikator für eine verzögerte Reaktion.
Die Idee hinter RAG ist richtig, aber mit der Weiterentwicklung der Technologie werden auch die Schwächen von RAG offensichtlich. Seit 2024 hat Wendeliang festgestellt, dass die traditionelle RAG-Technologie möglicherweise überbewertet wird. Bei der Implementierung von RAG-Systemen stößt man auch bei einfachen Wissensdatenbankprojekten auf unerwartete Probleme:
Beispielsweise in juristischen Projekten gibt es oft Fälle, in denen die semantische Ähnlichkeit von Texten hoch ist, aber die praktische Anwendung und die Fallbeispiele völlig unterschiedlich sind. In Gesetzen gibt es viele Details, die die Anwendungsgrenzen bestimmen (z. B. die Erforderlichkeit einer Mahnung bei der Kündigung eines Vertrags). Diese Details haben in der semantischen Analyse eine sehr geringe Gewichtung und werden von der allgemeinen Ähnlichkeit überdeckt. Darüber hinaus muss das Rechtssystem nicht nur auf die semantische Ähnlichkeit von Texten abstellen, sondern auch auf die Hierarchie von Gesetzen (z. B. dass höhere Gesetze Vorrang vor niedrigeren Gesetzen haben). Wenn ein Modell jedoch nur nach der semantischen Ähnlichkeit sortiert, kann es zu Fehlinterpretationen kommen. In juristischen Anwendungen ist die Suche auch immer an die strukturierten Informationen eines Falles (z. B. Fallart, Parteien, geografische Lage) gebunden. Beispielsweise können die Gesetze zu Schadensersatzansprüchen bei Körperverletzungen ähnliche Semantik wie die Gesetze für Unfallschäden und medizinische Streitigkeiten haben, aber die Beweislast und die Schadensersatzregeln sind völlig unterschiedlich. Eine rein semantische Suche kann diese Unterschiede nicht berücksichtigen.
In Kundensupport-Szenarien, auch wenn man die Embedding-, Chunking- und Ranking-Algorithmen perfekt anpasst, hat die RAG-Lösung immer noch Probleme. Wenn ein Kunde täglich die gleichen Fragen wie "Was ist die Anwendungsumgebung von Artikel XX?" oder "Wie berechnet man das Rückzahlungsdatum?" stellt, muss das AI-System jedes Mal eine neue Suche durchführen, was unnötig viel Rechenleistung verbraucht. Wenn der Kunde in einer neuen Konversation fragt, scheint das AI-System nicht mehr zu wissen, was in der vorherigen Konversation besprochen wurde.
Wendeliang hat schnell erkannt, dass die RAG-Lösung auf der Basis von semantischer Suche nur ca. 60 % der realen Anforderungen erfüllen kann. Kunden erwarten jedoch eine ganzheitliche Lösung, die es ermöglicht, dass das AI-System einmalige Informationen für immer speichert und diese Informationen dynamisch aktualisiert.
Als ein passives Suchtool ist RAG wie ein externes Lexikon für AI-Systeme. Es kann helfen, unbekannte Informationen zu finden, aber es kann nicht das Problem des mangelnden Gedächtnisses lösen. Darüber hinaus kann RAG in der Regel nur in wöchentlichen Intervallen offline Daten aktualisieren und nicht in Echtzeit die aktuellen Gespräche und Interessen der Benutzer speichern.
Aus diesen Gründen gibt es in der RAG-Technologie Lücken, wie das Verlust von Informationen zwischen verschiedenen Gesprächen, die fehlende Möglichkeit, Informationen dynamisch zu speichern und die fehlende Fähigkeit, Erfahrungen automatisch zu verknüpfen.
Deshalb glaubt er, dass ein echtes künstliches Gedächtnis die Arbeitsweise des menschlichen Gehirns nachahmen muss. Es muss in der Lage sein, Informationen kurzzeitig zu speichern, langfristig Wissen zu besitzen und Entscheidungen emotional zu treffen.
Genauer gesagt, arbeitet das menschliche Gehirn in drei Schritten: Kodierung, Speicherung und Abruf von Informationen. Die Informationen aus der Außenwelt werden zunächst in das Gehirn übertragen und in Neuralsignale umgewandelt. Diese Signale werden dann vom Frontallappen gefiltert und an das Hippocampus übertragen, wo sie mit dem bestehenden Wissensnetzwerk integriert werden. Schließlich werden die Informationen je nach Wichtigkeit im Kortex gespeichert. Beim Abruf von Informationen wird das Hippocampus aktiviert und ruft die entsprechenden Informationen aus dem Kortex ab.
Dies ist ein dynamisches, Echtzeit-System, das sowohl das Problem des Wissens als auch das Problem des Verstehens löst. Es optimiert das Denken, die Entscheidungsfindung und das Verhalten des Menschen.
Unter Bezugnahme auf diese Arbeitsweise des menschlichen Gehirns hat Red Bear AI ein umfassendes Gedächtniswissenschaftssystem entwickelt und im Januar dieses Jahres die Version 0.2.0 von Memory Bear veröffentlicht. In diesem System wird das künstliche Gedächtnis in explizites, implizites, assoziatives und dynamisch evolutionäres Gedächtnis aufgeteilt. Die verschiedenen Ebenen des Gedächtnisses können sich dynamisch durch intelligente Algorithmen verändern und in verschiedenen Situationen unterschiedlich genutzt werden.
Das Wichtigste daran ist, dass dieses System nicht nur die Fähigkeit zur Lese-, Schreib- und Speicherfunktion hat, sondern auch zusätzliche Funktionen wie emotionale Gewichtung, intelligentes Vergessen und die Zusammenarbeit zwischen verschiedenen AI-Systemen integriert. Dadurch wird die Logik des künstlichen Gedächtnisses auf der untersten Ebene neu strukturiert. Dies löst nicht nur das Problem der Explosion der gespeicherten Datenmenge, die zu höheren Kosten und zu langen Kontexten führt, sondern auch das Problem der ineffizienten Nutzung des Gedächtnisses.
Missverständnis 2: Tatsachensuche ist alles? Emotionales Verständnis löst die Probleme besser
Nachdem das Problem der Architektur des gesamten Gedächtnissystems gelöst war, konzentrierte sich das Kernentwicklungsteam von Red Bear AI, wie alle anderen Technikteams, auf die Genauigkeit als einzigen Schlüsselindikator für das Gedächtnissystem.
Das Team besteht hauptsächlich aus Ingenieuren und Forschern, wobei die meisten von ihnen einen naturwissenschaftlichen Hintergrund haben. Der Vorteil dieser Zusammensetzung ist, dass alle ein gemeinsames Sprach- und Denkverständnis haben, was in Bereichen wie Finanzkontrolle und Technikanwendung sehr effektiv ist. In diesen Bereichen ist die Tatsache immer im Vordergrund, da eine einzige falsche Zahl zu unvorhersehbaren Risiken führen kann.
Das Problem dabei ist jedoch, dass die übermäßige Offenheit und logische Argumentation, ohne die Situation zu berücksichtigen, im Grunde genommen Synonyme für Kälte und Konfrontation sind.
Dies wurde für alle Teammitglieder erst durch eine unerwartete Kundenanfrage klar.
Im Jahr 2025 hat die Frauenorganisation eines entwickelten Landes das Team von Red Bear AI kontaktiert und gefragt, ob es ein AI-System entwickeln kann, um emotionalen Beratungen und Familienstreitigkeiten in der Nacht zu helfen.
Beim Analysieren der Anforderungen der Benutzer hat das Team schnell festgestellt, dass die Probleme der Benutzer in der Nacht oft sehr trivial und konkret sind, aber es keine standardisierten Lösungen gibt. Manchmal haben die Benutzer bereits eine eigene Meinung, sie brauchen nur eine Bestätigung und Anerkennung von außen. In dieser Situation brauchen die Benutzer keine genauen Tatsachenantworten, sondern eher Verständnis, Beruhigung und Anerkennung. Beispielsweise muss das AI-System bei einem neuen Anruf schnell die Stimmung des Benutzers erkennen und ihn dazu bringen, seine Emotionen auszuleben. Bei einem Rückruf eines alten Benutzers muss es sich an seine Probleme und die effektivsten Beruhigungsmaßnahmen erinnern.
Allgemein gesagt, muss ein AI-System zunächst entschuldigen, wenn es einen Fehler macht, und es muss die emotionale Situation des Benutzers verstehen und teilen, wenn es um emotionale Probleme geht. Diese Regeln des emotionalen Verhaltens von Menschen müssen auch von AI-Systemen beherrscht werden.
Dies hat Red Bear AI gezwungen, das Problem des emotionalen Gedächtnisses zu lösen:
Indem man jedem Gedächtnis einen emotionalen Gewichtsfaktor zuordnet, kann man die Emotionen des Benutzers aus verschiedenen Perspektiven quantifizieren. Beispielsweise kann man in einem Text die emotionale Intensität anhand der Häufigkeit negativer oder positiver Wörter, der Satzform (Fragesätze, Ausrufesätze) und der emotionalen Intensitätsschwörter (z. B. "extrem", "nie wieder") berechnen und eine Punktzahl zwischen 0 und 100 geben. In einem Sprachgespräch muss man zusätzlich die Sprechgeschwindigkeit, die Tonlage, die Pausen und die Lautstärke berücksichtigen. In einem multimodalen Szenario kann man auch die Gesichtsausdrücke des Benutzers analysieren, um die Quantifizierung noch genauer zu machen.
Wenn ein Freund sich von seinem Partner getrennt hat, müssen wir ihm zunächst ein Beileid aussprechen, anstatt ihn zu befragen, warum er sich getrennt hat. Bei der Implementierung von AI-Systemen hat der emotionale Gewichtsfaktor nicht nur Auswirkungen auf die Priorität des Gedächtnisses, sondern auch auf die Antwortlogik des AI-Systems. Beispielsweise in der Produktlinie von Red Bear AI, wenn ein Kunde im vergangenen Monat eine 90-Punkte-negative Bewertung wegen einer Lieferverzögerung abgegeben hat, muss diese Information in das Langzeitgedächtnis gespeichert und mit einem hohen negativen Gewichtsfaktor versehen werden. Wenn der Kunde in diesem Monat wieder fragt, wann seine Bestellung ankommt, darf das AI-System nicht nur mechanisch antworten, dass die Bestellung unterwegs ist, sondern es muss zunächst entschuldigen: "Entschuldigung, dass Sie so lange warten mussten. Ich habe die aktuelle Lieferung überprüft, und sie wird bald ankommen." Erst dann kann es die Tatsacheninformationen mitteilen.
Missverständnis 3: Die Zukunft von Agenten ist Standardisierung? Nichtstandardisierung ist das Schicksal der Branche
Zu Beginn dieses Jahres hat der Erfolg von Manus und seine Akquisitionen die gesamte Agenten-Branche in eine Euphorie versetzt. Momentan ist es das beliebteste Thema in der Branche, ein neues Manus zu kreieren oder ein Manus für die B2B-Branche zu entwickeln.
Die Investoren warten auf die Entstehung eines Super-Agenten, und die Benutzer hoffen, dass ein einziges Produkt alle Probleme in verschiedenen Szenarien lösen kann. Doch in Wendeliangs Kopf, der in großen Unternehmen gearbeitet, in einer SaaS-Firma als CTO gearbeitet und jetzt sein eigenes Unternehmen gegründet hat, gibt es immer noch eine Frage: Der Markt für Agenten ist zwar groß, aber wird es wirklich einen Super-Sieger geben?
Vielleicht ist die Antwort enttäuschend: Das Schicksal von Agenten-Produkten ist es, die SaaS-Branche zu revolutionieren, aber auch auf den gleichen Weg wie die SaaS-Branche zu gehen.
Die Logik hinter der Revolutionierung der SaaS-Branche ist folgende: Dank der Integration von Gedächtnis und Tools sinkt die Entwicklungsschwelle für Agenten stark. Dadurch können Agenten-Produkte auf jede spezielle Situation zugeschnitten werden, und die traditionellen SaaS-Barrieren werden abgebaut.
Aber mit diesem Vorteil der unendlichen Spezialisierung geht auch die Fluch der Nichtstandardisierung und Fragmentierung der traditionellen chinesischen SaaS-Branche einher. Bei der praktischen Entwicklung hat Wendeliang festgestellt, dass es kein standardisiertes Gedächtnissystem gibt, das für alle Branchen geeignet ist. Selbst innerhalb einer Branche müssen die Gedächtnisregeln für verschiedene Produktkategorien unterschiedlich sein. Selbst wenn es sich um E-Commerce-Unternehmen handelt, die verschiedene Waren verkaufen, wie Handyhüllen und Handschuhe, haben sie unterschiedliche Schwerpunkte. Der erste Typ von Unternehmen interessiert sich für die Materialien und Muster, während der zweite Typ von Unternehmen auf die Größe und die Tragekomfort achtet. Die Schlüsselwörter und die Gedächtnisregeln