StartseiteArtikel

Hat Liang Wenfeng die V4-Veröffentlichung verschoben, um die Amnesie der Hummer dauerhaft zu heilen?

字母AI2026-03-16 17:17
Entweder nicht senden, wenn man sendet, dann mit einer Bombe.

Wann wird DeepSeek V4 veröffentlichen? Jeder im AI-Bereich rät, aber die richtige Antwort kennt vermutlich nur Liang Wenfeng.

Doubao, Qianwen, Yuanbao... Egal, ob es sich um große oder kleine Firmen handelt, alle haben es sich zur Gewohnheit gemacht, neue Versionen während des chinesischen Neujahrs zu veröffentlichen, aus Angst, von der Glanz von V4 überstrahlt zu werden.

Jeder normale CEO hätte in einer solchen Situation, in der die gesamte Branche auf die Veröffentlichung wartet, längst ein halbfertiges Produkt herausgebracht.

Zuerst die Aufmerksamkeit erregen und dann langsam weiterentwickeln, das ist die Standardstrategie in der Internetbranche.

Aber Liang Wenfeng macht es nicht so. Ein Kollege, der ihm nahesteht, hat die Wahrheit gesagt: "Das Team ist stabil und hat eine solide Basis. Sie werden keine hastigen Veröffentlichungen vornehmen."

Nach Berichten ausländischer Medien ist V4 eine architektonische Umstrukturierung. Es enthält eine Billion Parameter, eine Million Kontextinformationen und ist nativ multimodal. Es wird im April veröffentlicht.

Der Kern dieser Iteration heißt LTM, Long-Term Memory, also Langzeitgedächtnis.

LTM ist ein System, das im Inneren des Modells eine dauerhafte Gedächtnisfunktion implementiert. Es ermöglicht es dem AI-System, über verschiedene Gespräche und Aufgaben hinweg zu wissen, wer der Benutzer ist, was man miteinander gesprochen hat und welche Vorlieben der Benutzer hat. So wie ein Mensch kann es wichtige Informationen abspeichern, anstatt bei jedem Neustart von vorne anzufangen.

Und diese Fähigkeit fehlt OpenClaw am meisten.

Obwohl OpenClaw Aufgaben für Menschen übernehmen kann, basiert sein Gedächtnissystem im Wesentlichen darauf, Notizen in lokale Markdown-Dateien zu schreiben und diese während der Arbeit an das Large Language Model zu senden. Je länger man OpenClaw benutzt, desto mehr Token werden für die Übertragung des Gedächtnisses verbraucht.

Die gesamte Community bemüht sich, dieses Problem zu lösen, indem sie Patches, Plugins und Skills installiert. Doch niemand kann das Problem von Grund auf beseitigen, denn es liegt in der Natur des Modells, dass es nicht gut daran ist, Dinge zu merken.

Das Ziel von LTM ist es, dieses Problem auf Architekturebene zu beheben.

Die Herausforderungen, die diese Aktualisierung mit sich bringt, gehen weit über die üblichen Versionseiten hinaus. Darüber hinaus sind die Module für emotionale Interaktion und individuelles Gedächtnis des Modells noch nicht vollständig migriert und müssen noch weiter optimiert werden.

Deshalb verzögert Liang Wenfeng nicht, sondern zeigt Selbstbeherrschung.

In einer Branche, in der jeder versucht, als Erster aufzutreten und die größte Aufmerksamkeit zu erregen, entscheidet sich Liang Wenfeng, erst dann zu handeln, wenn alle Bauteile richtig funktionieren.

Der Erfolg von R1 beruht nicht auf einem voreiligen Start, sondern darauf, dass es von Anfang an so gut war, dass die Konkurrenten keine Worte hatten.

Offensichtlich plant er, V4 auf die gleiche Weise zu behandeln - entweder nicht veröffentlichen oder mit einem Trumpf auf den Tisch legen.

01 Was plant Liang Wenfeng eigentlich?

Der Erfolg von OpenClaw hat uns bewusst gemacht, dass, wenn AI tatsächlich Aufgaben für Menschen übernimmt, die Fähigkeit des Modells, Kontext zu verstehen und zu merken, nicht mehr eine zusätzliche Eigenschaft, sondern die Grundvoraussetzung für seine Nutzbarkeit ist.

Ein Agent, der den Kontext nicht merken kann, wiederholt alle paar Runden die gleichen Fehler, verliert den Zustand der Aufgabe und vergisst, was man ihm gerade gesagt hat.

Deshalb wurden in den letzten zwei Jahren viele LTM-Lösungen entwickelt.

Beispielsweise hat das Team von Berkeley 2023 MemGPT vorgeschlagen, das auf der Idee des virtuellen Speichers basiert. Das Modell entscheidet selbst, wann und welche Informationen aus dem externen Speicher in das Kontextfenster geladen und wann sie wieder entfernt werden.

Mem0, das 2025 veröffentlicht wurde, hat diesen Ansatz noch einen Schritt weiterentwickelt. Es hat auf der LOCOMO-Benchmark 26 % bessere Ergebnisse als das integrierte Gedächtnis von OpenAI erzielt und den Tokenverbrauch um 90 % reduziert. Dies ist derzeit das am häufigsten verwendete Gedächtnisplugin in der OpenClaw-Community.

Vor ein paar Tagen gab es auch SYNAPSE, das die assoziative Gedächtnisgewinnung des Menschen durch diffusen Aktivierungsmechanismus simuliert, sowie SimpleMem, das das Problem der Gedächtnisexpansion durch rekursive semantische Komprimierung löst.

Aber alle diese Lösungen haben eine gemeinsame Grenze: Sie sind alle Middleware, die außerhalb des Modells funktionieren.

Die Gewinnung, Komprimierung und Suche des Gedächtnisses werden alle von einem externen System durchgeführt, und das Modell selbst ist nicht beteiligt. Daher hängt die Qualität des Gedächtnisses vollständig von der technischen Leistung des externen Systems ab, und das Gedächtnis, das das Modell erhält, ist ungleichmäßig.

Darüber hinaus müssen alle Gedächtnisinformationen schließlich über das Kontextfenster in das Modell eingefügt werden. Genau wie bei OpenClaw führt dies dazu, dass je mehr Gedächtnisinformationen vorhanden sind, desto höher die Token-Kosten werden.

Außerdem kann das Modell nicht auf dem externen Gedächtnis "lernen". Denn in diesem Prozess liest das Modell nur die Notizen, die anderen Menschen für es zusammengefasst haben, anstatt die Erfahrungen tatsächlich in Fähigkeiten umzuwandeln.

Liang Wenfeng wird wahrscheinlich einen völlig anderen Weg einschlagen.

Aus dem von Liang Wenfeng signierten Engram-Papier und den Lecks über die V4-Architektur geht hervor, dass DeepSeek nicht daran interessiert ist, ein externes Gedächtnissystem aufzubauen, sondern die Gedächtnisfähigkeit direkt in die Architektur des Modells einzubetten.

Engram hat bewiesen, dass man im Inneren des Transformers einen speziellen bedingten Gedächtnisraum schaffen kann, in dem man statisches Wissen mit einer O(1)-Hash-Suche speichern und abrufen kann. Beim Abrufen des gespeicherten Wissens wird die Kapazität des Kontextfensters nicht beansprucht, und es entstehen keine zusätzlichen Rechenkosten für die Inferenz.

Das wichtigste ist, dass das Experiment mit dem "unendlichen Gedächtnismechanismus" von Engram gezeigt hat, dass die Kapazität dieses Gedächtnisraums nahezu unendlich erweitert werden kann, und die Inferenzkosten des Modells bleiben konstant.

Einfacher ausgedrückt: Wenn ein aktuelles Modell etwas "merken" möchte, muss es es in das Dialogfenster packen. Wenn das Fenster voll ist, muss es etwas löschen.

Engram ist wie eine separate Festplatte für das Modell. Man kann das Gedächtnis in diesem externen Speicher speichern, anstatt es auf der eigenen Festplatte zu sammeln. Wenn man ein bestimmtes Gedächtnis abrufen möchte, muss man einfach diese Festplatte anschließen.

Und diese Festplatte kann theoretisch unendlich erweitert werden, und die Suchgeschwindigkeit bleibt konstant.

Wenn dieser Weg funktioniert, bedeutet dies, dass DeepSeek die gesamte Technologie des "externen Gedächtnisses" überspringt und direkt in die Ära des "nativ integrierten Gedächtnisses" eintritt.

Wenn man OpenClaw kennt, wird man feststellen, dass Liang Wenfeng genau auf die schwächste Stelle von OpenClaw abzielt. OpenClaw hat dem AI-System Hände und Füße gegeben, aber ihm keinen Gedächtnisvermögen.

Das Gedächtnissystem von OpenClaw hat drei strukturelle Mängel.

Der erste ist der Komprimierungsverlust.

Wenn das Kontextfenster voll ist, komprimiert OpenClaw automatisch die alten Gespräche zu einem Kurztext, um Platz zu schaffen. Die Fakten bleiben zwar erhalten, aber die Gesprächsstruktur geht vollständig verloren und kann nicht wiederhergestellt werden.

Mit anderen Worten: Was man diskutiert hat, wie die Entscheidungslogik war, welche Tonlage und Priorität man hatte, alles ist weg und kann nicht wiedergefunden werden.

Beispielsweise kann der Agent vor der Komprimierung ein komplettes Debugging-Schema merken, nach der Komprimierung bleibt nur der Satz "Der Benutzer debuggt einen Fehler", und alle Details des Debugging-Prozesses sind weg.

Der zweite ist der Suchfehler.

Nach ein paar Wochen gibt es Hunderte von Gedächtnisdateien, und die Suche basiert auf der Vektorsimilarität. Aber die Vektorsuche kann nur semantisch ähnliche Segmente finden und versteht nicht die logischen Beziehungen zwischen den Einträgen.

Nehmen wir an, ich habe mit OpenClaw drei Lösungen erstellt, die in verschiedenen Dateien verteilt sind, und der letzte Vorschlag wurde mit dem Kunden vereinbart. Wenn ich später nach der vereinbarten Lösung suche, kann es passieren, dass ich nur die erste oder die zweite Lösung finde, weil alle drei Lösungen für den Kunden bestimmt waren.

Der dritte ist die begrenzte Gedächtniskapazität.

Das Gedächtnis von OpenClaw besteht aus zwei Ebenen: Das Kerngedächtnis (MEMORY.md) wird bei jedem Start der Sitzung vollständig in das Kontextfenster geladen, und das Protokollgedächtnis wird bei Bedarf über ein Suchtool abgerufen.

Das klingt vernünftig, aber das Kerngedächtnis hat eine feste Obergrenze. Eine einzelne Datei wird nach 20.000 Zeichen abgeschnitten, und alle Bootstrap-Dateien zusammen dürfen nicht mehr als 150.000 Zeichen enthalten.

Je länger man OpenClaw benutzt, desto länger wird MEMORY.md. Entweder wird es abgeschnitten und Informationen gehen verloren, oder der Tokenverbrauch pro Sitzung steigt linear an.

Und das ist noch nicht alles. Bei der Protokollsuche hängt die Qualität der Suche vollständig von der Einschätzung des Modells ab. Wenn es denkt, dass eine Information nicht relevant ist, wird sie nicht abgerufen, auch wenn sie tatsächlich existiert. So kann es leicht passieren, dass wichtige Informationen verloren gehen.

Eigentlich handelt es sich bei diesen drei Problemen um dasselbe: Das Fenster ist nur so groß, und je mehr man hineinschiebt, desto wahrscheinlicher ist es, dass man etwas falsch merkt, nicht findet oder die Kosten zu hoch werden. Das Gedächtnis von OpenClaw ist nicht "eingeprügelt", sondern "eine Menge Notizen geschrieben, die man nicht finden kann".

Wenn V4 diesen Weg auf Architekturebene wirklich erfolgreich beschreitet, wird es nicht nur die Probleme von OpenClaw lösen, sondern auch das Modell zu einem "wachstumsfähigen Modell" machen.

Je länger man es benutzt, desto besser versteht es den Benutzer. Dies unterscheidet sich grundlegend von der Benutzererfahrung mit allen aktuellen Large Language Modellen, denn diese sind jedes Mal, wenn man sie öffnet, wie ein leeres Blatt Papier.

Eine neueste Studie von Tencent bestätigt aus einer anderen Perspektive den Wert dieses Ansatzes.

Yao Shunyu, der von OpenAI zu Tencent gewechselt ist und dort als Chef-AI-Wissenschaftler arbeitet, hat im Februar seinen ersten signierten Artikel veröffentlicht.

Der Artikel heißt CL-bench, vollständiger Name Context Learning Benchmark, und misst speziell, ob ein Large Language Model tatsächlich etwas aus dem Kontext lernen kann.

Es geht nicht darum, wie viel Wissen es auswendig gelernt hat, sondern ob es aus den gegebenen Materialien etwas Neues lernen und anwenden kann.

Das Ergebnis ist enttäuschend.

Die durchschnittliche Richtigkeit aller führenden Modelle beträgt nur 17,2 %. Das Modell mit der höchsten Richtigkeit ist GPT-5.1, aber es hat nur 23,7 % der Aufgaben richtig gelöst. Mit anderen Worten: Wenn man einem AI-System eine detaillierte Hintergrundinformation gibt, besteht die Wahrscheinlichkeit von über 80 %, dass es diese Information nicht wirklich "gelernt" hat.

Yao Shunyu kommt in seinem Artikel zu dem Schluss, dass die Kluft zwischen dem aktuellen AI und der echten Intelligenz nicht in der Menge des Wissens, sondern in der Lernfähigkeit liegt. Ein AI-System, das viel Wissen hat, aber nicht lernen kann, ist wie ein Mensch, der ein ganzes Lexikon auswendig gelernt hat, aber nicht schreiben kann.

Er hat auch auf der AGI-Next-Frontiers-Konferenz ähnliche Ansichten geäußert. Er ist der Meinung, dass der Kernhaken für die hochwertige Anwendung von Large Language Modellen darin besteht, "den Kontext richtig zu nutzen".

Wie man Gedächtnis verwaltet, wird wahrscheinlich das zentrale Thema von 2026 sein. Sobald das Kontextlernen und -gedächtnis zuverlässig funktionieren, könnte das Modell möglicherweise autonom lernen.

Liang Wenfeng kann diesen Sachverhalt nicht nicht kennen. Deshalb wird das Veröffentlichungsdatum immer wieder verschoben.

02 Was DeepSeek noch lernen muss

Die Vision ist eins, die Realität ist eine andere.

Während Liang Wenfeng in der letzten Zeit in der "Einsamkeit" arbeitete, haben die Konkurrenten nicht auf ihn gewartet. DeepSeek hat mehr zu tun, als die Außenwelt vermutet.

Der erste Mangel ist die Multimodalität, und das ist auch der größte.

DeepSeek ist bis heute ein reines Textmodell. Es kann keine Bilder, Videos oder Audios verarbeiten.

Das heißt nicht, dass DeepSeek überhaupt keine visuelle Fähigkeit hat. Im Januar dieses Jahres haben sie OCR 2 veröffentlicht, ein kleines 3B-Parameter-Modell für die Dokumentenverstehung. Der Kern davon ist, dass es einen neuen Encoder namens DeepEncoder V2 anstelle des herkömmlichen visuellen Encoders verwendet, sodass das Modell Dokumentenseiten wie ein Mensch in Lesereihenfolge verstehen kann.

Bei den Benchmark-Tests für die Dokumentenanalyse hat OCR 2 mit den wenigsten visuellen Tokens gegen Gigamodell wie Qwen3-VL-235B gewonnen.

Aber OCR 2 kann nur eine Sache tun: Es extrahiert Texte, Tabellen und Formeln aus Dokumenten. Im Wesentlichen handelt es sich um eine einseitige Umwandlung von "Bild → Text", nicht um eine allgemeine visuelle Verständnis.

Mit anderen Worten: OCR 2 hat gezeigt, dass DeepSeek in der Lage ist, eine gute visuelle Codierung zu realisieren. Aber der Sprung von "Dokumente lesen können" zu "Videos ansehen, Audios hören und natürliche Szenen verstehen können" ist nicht nur ein kleiner Schritt, sondern eine ganze technologische Generation.

Andererseits haben andere große Unternehmen bereits die "All-Modalität"-Ära betreten.

Seedance 2.0 von ByteDance hat gezeigt, wie groß die Benutzerbasis und das kommerzielle Potenzial eines guten Multimodal-Modells sein können. GPT-5.4 unterstützt nativ Audio, Video und Computeroperationen.

Es wird berichtet, dass einer der Hauptaufgaben von Liang Wenfeng in den letzten sechs Monaten darin besteht, die Lücke in der visuellen Inhaltsverarbeitung zu schließen.

Der zweite Mangel ist die Agent-Fähigkeit.

Der Titel des an der Spitze der