Neue Studie unter dem Namen von Liang Wenfeng. Wird erstmals die Architektur von DeepSeek V4 enthüllt? Direkter Schlag auf die fatale Schwäche von Transformer.
Gerade jetzt wurde eine neue Studie von DeepSeek veröffentlicht, unter der Liang Wenfeng als Autor genannt ist!
Diesmal zielen sie gemeinsam mit der Peking-Universität direkt auf das Thema „Gedächtnis“ ab, das eine der fatale Schlüsselprobleme des Transformers darstellt.
Heutzutage ist das Mixture of Experts (MoE) das vorherrschende Architekturmodell für große Sprachmodelle. Im Wesentlichen basiert es jedoch immer noch auf dem Transformer. Da es keine native „Wissenssuche“-Mechanik besitzt, muss die Suchfähigkeit oft durch umfangreiche Berechnungen simuliert werden.
In der 33-seitigen Studie schlägt das Team eine komplementäre dünn besetzte Achse der „bedingten Gedächtnis“ für MoE vor und realisiert sie durch ein neues Engram-Modul:
Modernisierung der klassischen Hash-N-Gramm-Einbettung, um eine annähernd O(1)-Sicherheitswissenssuche zu ermöglichen.
Link zur Studie: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Durch die Modellierung der „Sparsitätszuweisung“ (Sparsity Allocation) stellten sie überraschenderweise fest, dass zwischen MoE und Engram ein „U-förmiges Skalierungsgesetz“ besteht.
Dies bedeutet, dass das Verhältnis der Ressourcen zwischen den beiden angepasst werden muss, um ein optimales Gleichgewicht zwischen Berechnung und statischem Gedächtnis zu finden.
Entlang dieser Regel wurde Engram auf 27 Milliarden Parameter erweitert und ist bei streng gleichen Parametern und FLOPs besser als die MoE-Baseline.
Einfach ausgedrückt: MoE löst nur das Problem der „weniger Berechnung“, während Engram direkt das Problem der „unnötigen Berechnung“ löst.
Es überlässt die zu suchenden Informationen einem O(1)-Gedächtnis und befreit die Aufmerksamkeit von lokalen Kleinigkeiten. Das Ergebnis ist nicht nur ein besseres Wissen, sondern auch eine verbesserte Inferenz, Codegenerierung und mathematische Fähigkeiten.
Dies könnte die nächste Hauptrichtung für dünn besetzte große Sprachmodelle werden. Noch wichtiger ist, dass die nächste Version V4 möglicherweise diese neue Methode integriert.
Keine mühsamen Berechnungen mehr, füge dem Transformer ein „elektronisches Gehirn“ ein
Derzeit ist es ein fester Grundsatz, dass große Sprachmodelle immer größer werden. Ein bekannter Weg ist es -
Die Parameter zu vergrößern und die Berechnungen zu „verdünnen“.
Das Mixture of Experts (MoE) ist ein typisches Beispiel. Jeder Token muss nur eine kleine Anzahl von Experten aktivieren. Durch die „bedingte Berechnung“ kann die Parameteranzahl sprunghaft steigen, während die FLOPs kontrolliert bleiben.
Aus der Artificial Analysis-Liste kann man sehen, dass die meisten der bestehenden dünn besetzten großen Sprachmodelle auf MoE basieren.
Das Problem besteht jedoch darin, dass der Transformer über keine native „Wissenssuche“-Fähigkeit verfügt. Deshalb müssen viele Dinge, die eigentlich wie eine O(1)-Suche gelöst werden könnten, durch umfangreiche Berechnungen „simuliert“ werden, was sehr unwirtschaftlich ist.
Die neue Studie von der Peking-Universität und DeepSeek bringt eine interessante Idee mit sich: Die Verdünnung kann nicht nur der „Berechnung“ dienen, sondern auch dem „Gedächtnis“.
Deshalb schlägt das Team Engram vor, um die vielen „festen, lokalen und starren“ Muster in der Sprachmodellierung an ein erweiterbares Tabellenmodul zu übergeben.
So kann der Transformer-Hauptteil seine Aufmerksamkeit und Tiefe auf die Stellen konzentrieren, die mehr „Kombination und Inferenz“ erfordern.
Sprachmodellierung, zwei Arten von Aufgaben
In der Studie teilen die Autoren die Sprachmodellierung eindeutig in zwei Arten von Teilaufgaben auf:
Ein Teil der Aufgaben erfordert „Kombination und Inferenz“: Kontextbeziehungen, Langzeitabhängigkeiten, logische Inferenz, kettenförmige Inferenz.
Der andere Teil der Aufgaben ähnelt eher einer „Muster-Suche“: Entitätsnamen, feste Wortkombinationen, häufige Phrasen, grammatikalische Segmente, wiederkehrende lokale Strukturen
Ein gemeinsames Merkmal des letzteren Teils ist offensichtlich, dass sie oft lokal, stabil und wiederkehrend auftreten.
Wenn man mehrschichtige Aufmerksamkeit und Feed-Forward-Networks (FFN) verwendet, um diese Aufgaben zu „berechnen“, kann es zwar funktionieren, aber der Aufwand ist sehr hoch und es wird auch der Expressionsraum der frühen Schichten eingeengt.
Um die Entität „Diana, Prinzessin von Wales“ zu erkennen, muss das große Sprachmodell mehrere Schichten von Aufmerksamkeit und FFN nutzen, um die Merkmale schrittweise zu kombinieren. Theoretisch könnte dieser Prozess durch eine einzige Wissenssuchoperation abgeschlossen werden.
Was Engram direkt erreichen möchte -
Die Übertragung dieser „lokalen statischen Muster“ an ein kostengünstiges Wissenssuchprimitiv.
Es liefert schnell Kandidateninformationen durch eine deterministische Tabellenabfrage und lässt dann den Kontext entscheiden, ob diese Informationen übernommen werden sollen.
Der Kernaufbau von Engram: Bruteforce-Tabellenabfrage + Gedächtnisschalter
Das Wort Engram stammt aus der Neurologie und bedeutet ursprünglich „Gedächtnisspur“. Es ist ein erweiterbares und abrufbares Gedächtniselement.
Es kann verwendet werden, um Muster und Informationssegmente zu speichern, die das große Sprachmodell während des Inferenzprozesses möglicherweise bereits kennengelernt hat.
Man kann Engram als eine Modernisierung der klassischen „Hash-N-Gramm-Einbettung“ verstehen, die als ein erweiterbares Tabellenmodul in die Mittelschicht des Transformers eingefügt wird.
Wie in Abbildung 1 gezeigt, ist Engram ein bedingtes Gedächtnismodul, das darauf abzielt, das Transformer-Hauptnetzwerk zu stärken, indem es die Speicherung von statischen Mustern von der dynamischen Berechnung strukturell trennt.
Formell ausgedrückt, gegeben eine Eingabesequenz X = (x_1, ..., x_T) und den verborgenen Zustand H^(l) ∈ R^Txd der l-ten Schicht, verarbeitet dieses Modul jede Position t in zwei Funktionsphasen: Abfrage und Fusion.
Schauen wir uns als nächstes die wichtigen Gestaltungspunkte von Engram an.
Dünne Suche basierend auf Hash-N-Grammen
Die erste Phase ist hauptsächlich dafür verantwortlich, den lokalen Kontext auf statische Gedächtniseinträge abzubilden. Dies wird durch die Kompression des Tokenizers und die deterministische Hash-Such-Einbettung erreicht.
Tokenizer-Kompression
Um die semantische Dichte zu maximieren, führen die Autoren eine Vokabularprojektionsschicht ein.
Sie berechnen im Voraus eine surjektive Funktion P: V → V', die die ursprünglichen Token-IDs mithilfe der normalisierten Textequivalenz (z. B. NFKC, Kleinschreibung usw.) in kanonische Bezeichner kollabiert.
Dieser Prozess kann die effektive Vokabulargröße des 128.000 Tokenizers um 23 % reduzieren.
Mehrköpfiger Hash
Es ist berechnungstechnisch nicht machbar, alle möglichen N-Gramm-Kombinationsräume direkt zu parametrisieren. Die Autoren verwenden daher eine Hash-basierte Methode.
Um Kollisionen zu reduzieren, wird jeder N-Gramm-Ordnung n K verschiedene Hash-Köpfe zugewiesen.
Jeder Kopf k bildet den komprimierten Kontext über eine deterministische Funktion φ_n,k auf einen Index in der Einbettungstabelle E_n,k ab:
Kontextabhängige Gatterung
Die abgerufenen Einbettungen e_t dienen als kontextunabhängige a priori-Informationen. Allerdings sind sie anfällig für Störungen durch Hash-Kollisionen oder Polysemie.
Um die Ausdrucksfähigkeit zu verbessern und diese Mehrdeutigkeiten zu lösen, verwenden die Autoren eine kontextabhängige Gatterungsmechanik, die von der Aufmerksamkeitsmechanik inspiriert ist.
Sie verwenden den aktuellen verborgenen Zustand h_t als dynamische Abfrage, während die abgerufenen Gedächtniseinträge e_t als Quelle für die Schlüssel- und Wertprojektion dienen:
Wobei W_K und W_V lernbare Projektionsmatrizen sind.
Um die Gradientenstabilität zu gewährleisten, führen sie vor der Berechnung des skalaren Gatters α_t ∈ (0, 1) eine RMSNorm-Behandlung der Abfrage und des Schlüssels durch: