Chinesische Studenten: Große Verdienste! Neuer König Mamba - 3 trifft Transformer - Schwachstelle, Inferenzeffizienz um Siebenfache überlegen

Ist der Transformer in Gefahr? Heute sind das ursprüngliche Team von CMU und Princeton zurück, und die neue Open-Source-Architektur Mamba-3 taucht auf. Mit 1,5 Milliarden Parametern hat es eine beeindruckende Leistung, und seine Performance ist im Vergleich zum Transformer um 4 % gestiegen.

Der Transformer「Killer」-Architektur erhält eine bahnbrechende Aufrüstung!

Heute haben die ursprünglichen Macher der Mamba-Architektur die neueste Open-Source-Architektur, Mamba-3, offiziell veröffentlicht.

Link zur Studie: https://arxiv.org/pdf/2603.15569

Im Vergleich zu Mamba-2 hat Mamba-3 drei wesentliche Änderungen am Kern-SSM vorgenommen:

Verbesserung des Diskretisierungsprozesses, um Konvolutionen zu simulieren;
Einführung der Zustandsübergänge in den komplexen Bereich, um die Zustandsverfolgung zu optimieren;
Einsatz der MIMO-Architektur zur Verbesserung der Inference-Nutzung, um die Modellleistung zu erhöhen, während die Decodiergeschwindigkeit beibehalten wird.

Die Ergebnisse zeigen, dass Mamba-3 mit nur halber internen Zustandsgröße die gleiche Leistung wie Mamba-2 erreicht.

Bei einer Parameteranzahl von 1,5 Milliarden erreicht die MIMO-Version von Mamba-3 eine durchschnittliche Genauigkeit von 57,6%, was 4% höher ist als bei Transformer.

Bei Langsequenzaufgaben beträgt die End-to-End-Latenz von Mamba-3 nur ein Siebtel der von Transformer.

Ziel: Die Schwachstelle von Transformer

Mamba-3 wendet die Lage um

Im Jahr 2017 tauchte die Transformer-Architektur auf und wurde zur Grundlage heutiger LLMs.

Allerdings ist es ein echtes 「Rechenleistungsschwarzes Loch」. Mit zunehmender Dialoglänge steigen die Rechenanforderungen quadratisch an, und der Speicherbedarf skaliert linear, was zu extrem hohen Kosten für die Masseninference führt.

Um diese Pattsituation zu brechen, wurde 2023 die erste Mamba-Architektur entwickelt.

Mitte 2024 wurde Mamba-2 veröffentlicht, das die mathematische Äquivalenz zwischen SSM und Attention-Mechanismus weiter ausbaute und die Trainingsgeschwindigkeit um das 2- bis 8-fache erhöhte.

Jetzt tritt Mamba-3 auf die Bühne, das von Albert Gu und Tri Dao gemeinsam geleitet und von vier Studenten-Forschern entwickelt wurde, mit einer neuen Designphilosophie.

Mamba-3 repräsentiert einen Paradigmenwechsel: von der Optimierung der Trainingsleistung hin zu einem 「Inference-first」-Design.

Wie Albert Gu sagt, lag der Schwerpunkt von Mamba-2 auf der Überwindung der Vorhersage-Trainingsengpässe, während Mamba-3 das Problem des 「kalten GPUs」 lösen soll –

d. h., dass moderne Hardware während des Decodierens oft nur auf die Datenübertragung (Speicherverschiebung) wartet, anstatt tatsächlich zu rechnen.

Das Geheimnis der Effizienz: Der Summarizer

Als Zustandsraummodell (SSM) verhält sich Mamba-3 wie ein effizienter 「Summarizer」.

Seine Kernlogik unterscheidet sich grundlegend von der von Transformer.

Transformer muss bei der Generierung jedes Wortes alle bisherigen Token betrachten, um den Kontext zu verstehen. Je länger die Historie, desto höher die Belastung.

Mamba-3 hingegen komprimiert die historische Information in Echtzeit zu einem 「internen Zustand」 fester Größe, den man als 「Schnappschuss」 der Datenhistorie verstehen kann.

Wenn neue Informationen eintreffen, muss die Architektur nur den Schnappschuss aktualisieren, anstatt den gesamten Text erneut zu lesen. Dies ist der grundlegende Grund, warum SSM einen konstanten Speicherbedarf und lineare Rechenoperationen ermöglicht.

Für SSM ist die Größe dieses 「Schnappschusses」 (d. h. die Zustandsgröße) der Schlüsselparameter für die Leistung:

Je größer der Zustand, desto mehr Informationen können komprimiert werden, desto intelligenter ist das Modell. Allerdings steigt auch der Aufwand für die Datenübertragung bei der Inference, und die Geschwindigkeit sinkt.

Umgekehrt kann die Geschwindigkeit verdoppelt werden, wenn die Zustandsgröße halbiert wird, aber das Modell wird möglicherweise weniger intelligent.

Hier liegt der Durchbruch von Mamba-3. Mit nur halber Zustandsgröße im Vergleich zu Mamba-2 erreicht es eine ähnliche Sprachmodellierungsleistung wie Mamba-2.

Die gleiche Intelligenz bei doppelter Geschwindigkeit – das verschiebt die Leistungseffizienzkurve von SSM insgesamt um eine Stufe nach unten.

Inference-first: Drei Kernstrategien

Wie gelingt es Mamba-3? Dahinter steckt eine neue Designphilosophie: die Überprüfung der Beziehung zwischen der 「Intelligenz」 von KI und der Geschwindigkeit der Hardware, auf der sie läuft.

Wenn Mamba-2 darauf abzielte, den Trainingsgeschwindigkeitsrekord zu brechen, ist Mamba-3 eine 「Inference-first」-Architektur.

Unter Inference versteht man den Prozess, bei dem Benutzer ChatGPT, Gemini oder KI über eine API nutzen.

Das Kernziel von Mamba-3 ist es, jede Sekunde der GPU-Aktivität auszunutzen, um sicherzustellen, dass das Modell so intensiv wie möglich 「denkt」, ohne den Benutzer warten zu lassen.

Um dieses Ziel herum hat Mamba-3 drei Strategien entwickelt –

Mathematisch gesehen sorgt eine präzisere Diskretisierungsformel für eine genauere 「Erinnerung」 des Modells;
Leistungstechnisch fügt die Einführung komplexer Zustände dem Modell ein 「internes Kompass」 hinzu, das die Schwächen bei der logischen Schlussfolgerung ausgleicht;
Bezüglich der Hardware verhindert das MIMO-Mechanismus, dass die Chip 「bezahlt schläft」, nutzt die gesamte ungenutzte Rechenleistung aus und ermöglicht es dem Modell, bei der Generierung jedes Wortes mehr 「Tiefenanalyse」 durchzuführen, ohne dass der Benutzer länger warten muss.

Im Folgenden werden diese Strategien einzeln erklärt.

Drei Kerntechnologien

Exponentielle Trapezregel für die Diskretisierung: Der Sprung von erster auf zweite Ordnung in der Genauigkeit

Die Diskretisierungsmethode, die in Mamba-1 und Mamba-2 verwendet wird, ist im Wesentlichen eine Näherung erster Ordnung, ähnlich wie die Schätzung der Fläche unter einer Kurve anhand der Höhe eines Endpunkts.

Mamba-3 nutzt die 「exponentielle Trapezregel」, die eine gewichtete Mittelung anhand beider Endpunkte vornimmt, was die Genauigkeit von erster auf zweite Ordnung erhöht.

Obwohl dies nur eine kleine mathematische Anpassung scheint, hat es überraschende Ergebnisse.

Es führt implizit eine Datenabhängige Konvolution mit einer Breite von 2 in die Zustands-Eingabe von SSM ein, wodurch das in Mamba-2 unverzichtbare kurze kausale Konvolutionsmodul optional wird.

Ablationsversuche zeigen, dass die Kombination der exponentiellen Trapezdiskretisierung mit den B- und C-Vorzeichentermen alle externen kurzen Konvolutionen ersetzen kann, von denen fast alle linearen Modelle in der Vergangenheit abhängig waren – ein wichtiger Schritt zur Vereinfachung der Architektur.

Komplexe SSM: Ein 「internes Kompass」 für das Modell

Seit langem haben Alternativen zu Transformer ein 「logisches Defizit」 – sie scheitern häufig bei einfachen Zustandsverfolgungsaufgaben (z. B. der Bestimmung der Parität einer binären Sequenz).

Der Grund dafür ist, dass Mamba-2 die Zustandsübergangsmatrix auf reelle Skalare beschränkt, was die Darstellung von 「Rotations」-Dynamiken verhindert.

Ein anschauliches Beispiel: Die Paritätsüberprüfung ist im Wesentlichen eine Flip-Operation – bei jedem Eingang einer 1 wird der Zustand umgekehrt. Diese Umkehr entspricht mathematisch einer Rotation, die im reellen Bereich nicht unterstützt wird.

Mamba-3 löst dieses Problem durch die Einführung eines komplexen Zustandsraums.

Die Ergebnisse zeigen, dass das diskretisierte komplexe SSM einer datenabhängigen Rotations-Positions-Einbettung (RoPE) auf den B- und C-Projektionen entspricht.

Dies bedeutet, dass die komplexen Operationen mit der effizienten 「RoPE-Technik」 durchgeführt werden können, wobei der Rechenaufwand nahezu vernachlässigbar ist.

Die Daten zeigen, dass Mamba-3 bei der Paritätsüberprüfung eine Genauigkeit von 100% erreicht, während Mamba-2 nur 0,9% hat, was kaum besser als ein Zufallsraten ist.

Bei der Modulo-Arithmetik erreicht Mamba-3 ebenfalls 98,51%, während Mamba-2 nur 47,81% erreicht. Die Schlussfolgerungsfähigkeit von linearen Modellen kann nun endlich mit den besten Systemen mithalten.

MIMO: Die maximale Ausnutzung jeder ungenutzten Rechenleistung

Die meisten heutigen KI-Modelle sind durch die 「Speicherbandbreite」 eingeschränkt.

Ein paar Zahlen verdeutlichen das Problem: Die arithmetische Intensität der Standard-SISO-Decodierung von Mamba beträgt nur etwa 2,5 ops/Byte, während die bf16-Tensor-Kernfähigkeit der NVIDIA H100 295 ops/Byte beträgt.

Daraus folgt, dass die GPU bei der Decodierung mehr als 99% ihrer Rechenleistung ungenutzt lässt.

Mamba-3 führt die Multi-Input-Multi-Output (MIMO)-Formel ein, die die Zustandsaktualisierung von einer Außprodukt-Operation zu einer Matrixmultiplikation macht.

Wenn der MIMO-Rang 4 beträgt, erhöht sich die Rechenmenge pro Schritt auf das Vierfache. Da diese Berechnungen jedoch die leeren Tensorkerne ausfüllen, erhöht sich die Decodierlatenz kaum.

Die Kernel-Latenztests bestätigen dies. Bei der gängigen Konfiguration von bf16 und einer Zustandsdimension von 128 beträgt die SISO-Decodierlatenz von Mamba-3 nur 0,156 Millisekunden, was schneller ist als bei Mamba-2 (0,203 Millisekunden). Die MIMO-Version beträgt 0,179 Millisekunden und ist ebenfalls schneller als Mamba-2.

Mit einem Satz zusammengefasst: Die Philosophie von MIMO besteht darin, nicht die GPU schneller laufen zu lassen, sondern sie nicht inaktiv zu lassen.

Vollständige Überlegenheit: Von 180M bis 1,5B

Das Forschungsunternehmen hat einen systematischen Vergleich an vier Parametergrößen (180M, 440M, 880M, 1,5B) durchgeführt, wobei die Vergleichsmodelle Transformer, Mamba-2 und Gated DeltaNet (GDN) sind.

Alle Modelle verwenden den gleichen Trainingsablauf,