Neue Studie von DeepSeek könnte das Geheimwaffe von V4 enthüllen: Ein Trick zum Überwinden des Engpasses, und tatsächlich die CPU wie eine GPU nutzen?
Vor ein paar Tagen wurde bekannt, dass DeepSeek um die chinesische Neujahr ein neues Flaggschiffmodell namens DeepSeek-V4 veröffentlichen wird.
Es wird behauptet, dass V4 bei Codierungsaufgaben die Claude-Serie von Anthropic und die GPT-Serie von OpenAI übertrifft.
Obwohl das Unternehmen weiterhin geheimnisvoll bleibt, könnten die kürzlich von DeepSeek veröffentlichten Papers erste Hinweise geben.
Gerade gestern Abend hat DeepSeek gemeinsam mit der Peking-Universität ein neues Paper mit dem Titel "Conditional Memory via Scalable Lookup" veröffentlicht. Liang Wenfeng ist erneut als Autor benannt.
Engram könnte einer der "technologischen Geheimnisse" der Stärke von V4 sein.
Kann es die Gerüchte bestätigen, dass V4 bei der Verarbeitung von sehr langen Code-Projekten und komplexen logischen Schlüssen einen bedeutenden Durchbruch erzielt hat und das Problem der Leistungseinbußen, dass das Modell mit der Zeit "verwirrter" wird, gelöst hat?
Link zum Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Ihr großes Modell rechnet eigentlich "klobig"
Wenn Sie ChatGPT fragen, wie der volle Name von Shakespeare lautet, holt es die Antwort nicht direkt aus einer Wissensdatenbank. Stattdessen muss es ein mehrschichtiges neuronales Netzwerk einsetzen und durch komplexe Matrixrechnungen die Antwort Schicht für Schicht "zusammenbauen".
Das Paper gibt ein konkretes Beispiel: Wenn das Modell auf "Diana, Princess of Wales" stößt, braucht es die ersten sechs Netzwerkebenen, um die Erkennung abzuschließen. In den ersten beiden Ebenen wird nur verstanden, dass es sich um "Wales" handelt. Erst in der dritten Ebene wird erkannt, dass es sich um "Princess of Wales" handelt, und erst in der sechsten Ebene wird endgültig festgestellt, dass es sich um "Prinzessin Diana" handelt.
Die Forscher von DeepSeek weisen im Engram-Paper darauf hin, dass dieser Prozess des "Tiefenrechnens" zur Simulation des "Gedächtnisabrufs" eine enorme Verschwendung der kostbaren Rechenleistung (Schlussfolgerungsfähigkeit) des Modells darstellt.
Wenn V4 wirklich so ist, wie es in den Gerüchten heißt, dass es in Sachen Codierungsfähigkeit alle anderen übertrifft, dann muss es dieses Problem gelöst haben - denn Code enthält viele feste Grammatikregeln und Muster, die es nicht jedes Mal neu "herleiten" muss.
Ein "Superwörterbuch" für die KI anhängen
Um dieses Problem zu lösen, führt DeepSeek im Paper eine Art "technologische Rückbesinnung" ein.
Wenn einige Informationen feststehen, warum sollten sie nicht einfach gespeichert und bei Bedarf abgerufen werden, anstatt jedes Mal neu berechnet zu werden?
Sie holen die älteste Methode aus dem Bereich der natürlichen Sprachverarbeitung, das N-gramm (N-Gramm), zurück und transformieren es in das moderne Engram-Modul.
Es bildet den lokalen Kontext mithilfe einer Hash-Funktion auf eine riesige Einbettungstabelle ab. Wenn das Modell auf einen festen Ausdruck wie "Alexander der Große" stößt, muss es nicht mehr Schicht für Schicht verstehen, sondern kann direkt den entsprechenden semantischen Vektor aus dem Gedächtnisarchiv abrufen.
Um die Störungen zu behandeln, die durch "verschiedene Wörter, die auf die gleiche Position abgebildet werden" und "das gleiche Wort, das in verschiedenen Kontexten unterschiedliche Bedeutungen hat", entstehen, führt das Team einen kontextabhängigen Gating-Mechanismus (Context-aware Gating) ein. Der aktuelle verborgene Zustand wird als Abfragevektor verwendet, um die Suchergebnisse dynamisch zu modulieren. Wenn der abgerufene Inhalt nicht mit dem aktuellen Kontext übereinstimmt, nähert sich der Gating-Wert Null, was die Störungen effektiv unterdrückt.
Beim Verarbeiten des Satzes "Only Alexander the Great could tame the horse Bucephalus" zeigt die Gating-Aktivierungs-Wärmekarte von Engram, dass das Modell bei den Begriffen "the Great" und "Bucephalus" deutliche Aktivierungspitzen aufweist, was bedeutet, dass es die semantischen Repräsentationen dieser festen Entitäten erfolgreich erkannt und abgerufen hat.
Dies könnte erklären, warum die Codierungsfähigkeit von V4 so stark verbessert ist: Engram ist wie ein Super-IDE für Programmierer, das alle festen Grammatikregeln automatisch vervollständigt, sodass das Modellgehirn sich nur noch auf "wie man das Problem löst" konzentrieren muss, anstatt sich um "wie man ein Semikolon schreibt" zu kümmern.
Den CPU-RAM in "GPU-Speicher" verwandeln
Abgesehen davon, dass das Modell schlauer wird, ist das in diesem Engram-Paper, was die Entwickler und kleine und mittlere Unternehmen am meisten begeistert, dass der GPU-Speicher nicht mehr die Grenze für die Modellgröße darstellt. DeepSeek versucht, den billigen und reichlich vorhandenen CPU-Speicher (DRAM) anstelle des teuren und knappen GPU-Speichers (HBM) zu verwenden.
Das traditionelle MoE-Modell verwendet eine dynamische Routing-Strategie. Das Modell muss zunächst eine Ebene berechnen und die Ergebnisse erhalten, bevor es entscheiden kann, welche Expert-Ebene für die nächste Berechnung verwendet werden soll. Dies wird "Schritt für Schritt vorgehen" genannt, und es ist nicht möglich, die Daten im Voraus vorzubereiten.
Die Suchlogik von Engram wird dagegen vollständig durch die Eingabetoken-Sequenz bestimmt. Sobald der Eingabetext gelesen wird, kann sofort berechnet werden, welche Einbettungsvektoren abgerufen werden müssen, ohne auf die Berechnungsergebnisse der Zwischenschichten warten zu müssen.
Diese Technologie des "Überlappens von Berechnung und Übertragung (Overlap)" kompensiert perfekt die langsame Lesezeit des CPU-Speichers.
Experimente haben die Machbarkeit dieser Strategie bestätigt. Sie haben einen riesigen Engram-Wortschatz mit 100 Milliarden Parametern (100B) erstellt und diesen Teil der Parameter vollständig in den CPU-Speicher gelegt (beachten Sie, dass kein wertvoller GPU-Speicher beansprucht wird).
Bei der praktischen Inferenztestung war der Verlust der Gesamtleistung im Vergleich zur reinen GPU-Ausführung weniger als 3%, was in der industriellen Implementierung fast vernachlässigbar ist.
Früher mussten Sie möglicherweise mehrere A100 (80G) verwenden, um ein Modell mit Milliarden von Parametern auszuführen. Jetzt können Sie möglicherweise nur eine Consumer-Grafikkarte für die Berechnung und einige billige 64GB-RAM-Sticks für die Wissensspeicherung verwenden.
Jetzt müssen Sie sich nicht mehr Sorgen machen, dass NVIDIA und AMD im Jahr 2026 die Preise für GPU's erhöhen.
Möchten Sie, dass das Modell die neuesten Gesetze oder medizinischen Daten lernt? Sie müssen nicht das gesamte neuronale Netzwerk neu trainieren, sondern können einfach eine neue Engram-Tabelle im CPU-Speicher hinzufügen. Für vertikale Branchenanwendungen bedeutet dies eine exponentielle Reduzierung der Wartungskosten.
Da die Sprache dem 80:20-Regelwerk folgt und nur wenige Wörter häufig verwendet werden, könnte das zukünftige DeepSeek-Modell so funktionieren: Heißes Wissen wird im GPU-Speicher für eine ultraschnelle Reaktion gespeichert, warmes Wissen wird im CPU-Speicher mit einer Verzögerung im Millisekundenbereich abgerufen, und kaltes Wissen kann sogar auf einer Festplatte gespeichert werden. Dies bedeutet, dass Hardware, die ursprünglich nur Hunderte von Milliarden von Parametern speichern konnte, theoretisch ein riesiges Wissensarchiv mit Billionen von Parametern hinzufügen kann, und das zu einem sehr geringen Preis.
Bisher dachten wir, dass die Modellgröße durch die Gesamtmenge des GPU-Clusters begrenzt sei. Engram hat jedoch gezeigt, dass ein günstiger Hauptspeicher auch ein wirksamer Träger für die Modellkapazität sein kann. Dies eröffnet neue Möglichkeiten für die zukünftige Bereitstellung von supergroßen Modellen.
Experimentelle Daten bestätigen die Gerüchte über V4
Zurück zu den Gerüchten über V4: The Information erwähnt, dass das neue Modell bei der "Verarbeitung langer Codes" und der "logischen Klarheit" einen qualitativen Sprung gemacht hat. Interessanterweise bestätigen die experimentellen Daten im Engram-Paper diese Behauptung.
Bei wissensintensiven Aufgaben hat Engram-27B im Vergleich zu MoE-27B eine Verbesserung von 3,4 Punkten auf MMLU und 4,0 Punkten auf CMMLU erzielt. Dies entspricht den Erwartungen, da Engram ja gerade für den Wissensabruf entwickelt wurde.
Aber das wirklich Überraschende ist der Sprung in der Schlussfolgerungsfähigkeit. Auf BigBench Hard wurde eine Verbesserung von 5,0 Punkten erzielt, auf ARC-Challenge 3,7 Punkte und auf DROP 3,3 Punkte. In den Bereichen Code und Mathematik ist die Verbesserung ebenfalls signifikant: HumanEval hat 3,0 Punkte verbessert, MATH 2,4 Punkte und GSM8K 2,2 Punkte.
Die Verbesserung der Fähigkeit zur Verarbeitung langer Texte ist ebenfalls erstaunlich. Im RULER-Benchmark-Test mit einem 32k-Kontextfenster ist die Genauigkeit von Engram-27B bei der Aufgabe "Needle-in-a-Haystack" von 84,2% auf 97,0% gestiegen, und bei der Variablenverfolgungsaufgabe von 77,0% auf 89,0%. Dies liegt daran, dass durch die Abfrage lokale Abhängigkeiten behandelt werden, sodass die Aufmerksamkeitsmechanismen sich auf die globale Kontextmodellierung konzentrieren können.
Durch eine "CT-Scan" des Modells haben die Forscher festgestellt, dass das ursprünglich belegte tiefere Netzwerk des Modells "befreit" wurde, da Engram die Arbeit des Auswendiglernens bereits in den oberen Schichten erledigt hat. Dies ist wie wenn man die Zeit, die man sonst für das Auswendiglernen aufgewendet hätte, für das Lösen von Mathematikaufgaben verwendet. Kann das IQ dann nicht steigen? Dies stimmt überein mit den Gerüchten, dass "V4 bessere Antworten und stärkere Schlussfolgerungsfähigkeiten" hat.
DeepSeeks Ambitionen gehen über die "Größe" hinaus
Von dem 86-seitigen technischen Bericht von R1 über die mHC-Architektur bis hin zum heutigen Engram-Gedächtnis-Modul hat DeepSeek seinen Tempo deutlich erhöht.
Wenn OpenAI die Grenzen des Scale Law (Größen-Gesetz) erkundet, scheint DeepSeek eher ein Goldmine in der Architektureffizienz (Architecture Efficiency) zu graben. Sie hoffen, mit einer geschickteren Struktur das Modell dazu zu bringen, "weniger zu essen und mehr zu leisten".
Mit der ankommenden chinesischen Neujahr wird DeepSeek V4 diese "harten Technologien" erneut in die Ranglisten stürzen?
Lassen Sie uns gespannt sein. Mindestens aus diesem Paper zu urteilen, hat ihr "Waffenarsenal" tatsächlich noch einige gute Dinge drin.
Dieser Artikel stammt aus dem WeChat-Account "APPSO", Autor: Entdecker zukünftiger Produkte. 36Kr hat die Veröffentlichung mit Genehmigung erhalten.