Stammt der Algorithmus hinter Musk's neuem Modell von NVIDIA?
Grok-4-fast hat kürzlich in Sachen Kostenreduktion und Effizienzsteigerung eine beispiellose Leistung erbracht und hat sogar GPT5, das mit einer Art „Router“ ausgestattet ist, geschlagen.
Angesichts dieser beeindruckenden Inferenzleistung denken viele Menschen sofort: Die Skalierung der Rechenleistung durch das Anhäufen von Grafikkarten zeigt wieder ihre Macht.
Tatsächlich steht hinter Grok wirklich die Schattenfigur von NVIDIA.
Aber vielleicht ist diesmal nicht die Grafikkarte von Huang, sondern das Algorithmus, das den Sieg errungen hat.
Richtig, die Geheimwaffe von Grok-4-fast ist mit einer NVIDIA-Algorithmus-Publikation in Verbindung gebracht worden.
Der Raketenantrieb, der die Leistung von LLMs um das 53-fache steigert
Wie Grok-4-fast gezeigt hat, löst diese Publikation das seit langem bestehende Problem der Inferenzkosten in der Branche.
Eine einseitige Hardware-Skalierung lässt nur die Zahlen auf den Rechnungen der Modellhersteller immer länger werden, und die Geduld der Benutzer wird im Laufe der langen Inferenzzeiten allmählich erschöpft.
Dafür hat das NVIDIA-Forschungsteam ein neues „Hybridmodell“ namens Jet-Nemotron entwickelt.
Nach einer Reihe umfassender Benchmark-Tests wurde festgestellt, dass Jet-Nemotron-2B sich mit Spitzen-Open-Source-Modellen wie Qwen3, Qwen2.5, Gemma3 und Llama3.2 messen kann und eine Geschwindigkeitssteigerung von etwa 53-fache erzielen kann.
Beispielsweise auf MMLU-Pro hat Jet-Nemotron-2B nicht nur eine höhere Genauigkeit als Qwen3-1.7B-Base, sondern auch eine 47-fache schnellere Generierungsgeschwindigkeit.
Außerdem hat Jet-Nemotron-2B keine Angst vor Modellen mit mehr Parametern. Seine Genauigkeit auf MMLU und MMLU-Pro kann sogar DeepSeek-V3-Small und Moonlight (Gesamtparameterzahl 15B, aktive Parameterzahl 2.2B) übertreffen.
Der Schlüssel, der all dies verändert, liegt in einem neuen Framework namens PortNAS.
Im Gegensatz zu früheren Methoden trainiert PostNAS nicht von Grund auf neu, sondern beginnt mit einem vortrainierten Voll-Attention-Modell und friert seine MLP-Gewichte ein, um nur die Verbesserung des Attention-Mechanismus zu erforschen.
So kann nicht nur die Trainingskosten um mehrere Größenordnungen gesenkt werden, sondern es kann auch mehr Energie für die umfassende Erforschung der Modellstruktur aufgewendet werden.
Der Prozess umfasst vier Kernteile: Platzierung der Voll-Attention-Schichten, Auswahl des besten linearen Attention-Moduls, Entwurf eines besseren linearen Attention-Moduls und hardwarebewusste Architektursuche.
Platzierung der Voll-Attention-Schichten
Die meisten Teams verwenden in allen Schichten des Modells einheitlich Voll-Attention, was jedoch Rechenressourcen verschwendet.
Deshalb möchte das NVIDIA-Team einige wenige kritische Voll-Attention-Schichten beibehalten, um die Genauigkeit bei komplexen Aufgaben aufrechtzuerhalten, und gleichzeitig überflüssige Schichten entfernen, um die Effizienz zu verbessern.
PostNAS baut zunächst ein Supernetzwerk, das beide Attention-Mechanismen enthält, trainiert dann ein Subnetzwerk durch Merkmalsdistillation und findet schließlich die optimale Platzierung der Attention-Schichten mit Beam Search.
Es hat sich gezeigt, dass nicht alle Attention-Schichten gleich wichtig sind. Verschiedene Aufgaben hängen von verschiedenen Schichten ab, und einige wenige kritische Schichten können die meisten Aufgabenanforderungen abdecken.
Die Experimentergebnisse zeigen, dass PostNAS der gleichmäßigen Platzierungsstrategie überlegen ist – bei der Verwendung von nur zwei Voll-Attention-Schichten hat PostNAS eine Genauigkeit von etwa 49%, während die Genauigkeit der gleichmäßigen Platzierung etwa 40% beträgt.
Auswahl des besten linearen Attention-Moduls
Nach der Bestimmung der Voll-Attention-Schichten beginnt das NVIDIA-Team mit der Suche nach Attention-Modulen, um das derzeit beste lineare Attention-Modul zu finden.
Die Publikation bewertet sechs der neuesten linearen Attention-Module, darunter RWKV7, RetNet, Mamba2, GLA, DeltaNet und Gated DeltaNet.
Unter diesen sechs hat Gated DeltaNet die höchste Genauigkeit, was hauptsächlich auf zwei Faktoren zurückzuführen ist:
1. Datenabhängiges Gating-Mechanismus (Data-Dependent Gating Mechanism): Dies kann man sich wie einen Router vorstellen. Das Modell entscheidet basierend auf den Eingabeinformationen, ob es mehr auf neue Informationen oder den bisherigen Zustand achten soll, um so ein Gleichgewicht bei verschiedenen Aufgaben zu finden.
2. Delta-Regel (Delta Rule): Anstatt jedes Mal alle Informationen im Speicher zu überschreiben, werden nur die veränderten Teile aktualisiert. Dies reduziert unnötige Wiederholungen im Speicher, spart Speicherplatz und erhält die Kontinuität der Informationen.
Die bessere Lösung: JetBlock
NVIDIA plant jedoch nicht, bei Gated DeltaNet zu bleiben, sondern hat ein stärkeres lineares Attention-Modul namens JetBlock entwickelt.
Konvolutionen sind für die Genauigkeit von linearen Attention-Modulen von entscheidender Bedeutung. Bisherige Methoden verwenden jedoch meist statische Konvolutionskerne, die nicht automatisch die Merkmalsextraktion anpassen können.
Im Gegensatz dazu verwendet JetBlock dynamische Konvolutionen. Durch die Einführung eines Konvolutionskern-Generator-Moduls in die lineare Attention kann JetBlock dynamisch Konvolutionskerne basierend auf den Eingabemerkmalen erzeugen.
Die Ergebnisse zeigen, dass JetBlock in mathematischen Inferenz- und Suchaufgaben eine höhere Genauigkeit als Gated DeltaNet hat und dennoch eine gute Generierungsleistung aufweist.
Im Vergleich zu Mamba2, dem am schlechtesten abschneidenden Modell, ist der Vorteil von JetBlock noch deutlicher.
Hardwarebewusste Architektursuche
Nach der Bestimmung der makroskopischen Architektur und der Auswahl des linearen Attention-Moduls führt das NVIDIA-Team eine hardwarebewusste Architektursuche durch, um die Kernhyperparameter (Dimension von Key/Value, Anzahl der Attention-Head usw.) zu optimieren.
In der Vergangenheit wurde die Parameteranzahl oft als Hauptmaßstab für die Effizienz eines Modells verwendet, um die Architekturgestaltung zu leiten.
Aber das NVIDIA-Team hält diese Methode für unzureichend, da die Parameteranzahl nicht direkt die Effizienz auf echter Hardware widerspiegelt.
Dafür verbessern sie die Methode wie folgt: Die Generierungsdurchsatz wird direkt als Zielgröße für die Auswahl der Hyperparameter verwendet.
Das NVIDIA-Team hat festgestellt, dass die Größe des KV-Caches der wichtigste Faktor für den Generierungsdurchsatz bei langen Kontexten und langen Texten ist. Wenn die Größe des KV-Caches festgelegt ist, zeigen Modelle mit unterschiedlicher Parameteranzahl ähnliche Generierungsdurchsätze.
Basierend auf diesen Erkenntnissen behält das NVIDIA-Team die Größe des KV-Caches wie ursprünglich geplant bei und führt dann eine kleine Raster-Suche für die Key-Dimension, die Value-Dimension und die Anzahl der Attention-Head durch.
Experimente haben gezeigt, dass die optimierte Version bei gleichbleibendem Durchsatz die Parameteranzahl erhöht (184 Millionen vs. 170 Millionen) und gleichzeitig die mathematische Genauigkeit verbessert (34,8% vs. 32,8%) (die blaue Zeile repräsentiert die Experimentalgruppe, die graue Zeile die Kontrollgruppe).
Zusammenfassend lässt sich sagen, dass PortNAS drei Auswirkungen auf die aktuelle KI-Branche haben kann.
1. Die GPU-Nutzungszeit in der Inferenzphase wird um das 47-fache reduziert, was es LLMs ermöglicht, hochwertige Aufgaben schneller zu erledigen.
2. Weniger Speicherbedarf, was eine kostengünstigere Hardwarebereitstellung ermöglicht.
3. Höherer Durchsatz, was bedeutet, dass die Modellhersteller mit der bestehenden Infrastruktur mehr Benutzer bedienen können.
Außerdem bietet PostNAS eine kostengünstige und effiziente Möglichkeit zur Architekturforschung und ist für alle vortrainierten Transformer geeignet.
Im Grunde kann jeder Hersteller PostNAS in sein Modell einbauen, ohne es neu zu trainieren. Dadurch können die Kosten des Modells stark reduziert werden, während die Genauigkeit fast unverändert bleibt.
Übrigens ist Jet-Nemotron sogar Open Source.
Der Korrespondenzautor Han Cai hat auf Github angekündigt, dass der Code und das vortrainierte Modell von Jet-Nemotron nach Abschluss der rechtlichen Prüfung veröffentlicht werden.
Interessierte können die Links am Ende des Artikels checken.
Steckt hinter Grok-4-fast NVIDIA?
Angesichts der beeindruckenden und ähnlichen Leistungen von Grok-4-fast und Jet-Nemotron ist es schwer, nicht zu vermuten, ob Musk und Huang diesmal zusammengearbeitet haben.
Auf Reddit haben einige Nutzer spekuliert, dass Grok-4-Fast auf Jet-Nemotron basiert.
Jet-Nemotron kann die erforderliche Rechenleistung bei der Inferenz stark reduzieren, ohne die Modellleistung zu beeinträchtigen. Dies entspricht stark der Fähigkeit, die Grok-4-fast gezeigt hat.
Diese Ansicht wird durch die Daten gestützt – Gemäß der Preisgestaltung von Grok-4-fast stimmt die Preisreduktion mit der Vorhersage von NVIDIA für dieses Architekturmodell überein (die Publikation sagt eine Preisreduktion um das 20- bis 50-fache voraus).
Wichtiger noch ist, dass, wenn Jet-Nemotron in Grok eingesetzt werden kann, es auch von Firmen wie OpenAI, Anthropic und Google implementiert werden kann.
Einige Nutzer stimmen dieser Ansicht nicht zu und meinen, dass die Preisreduktion von Grok möglicherweise nur eine Marketingmaßnahme ist und man daraus nicht ableiten kann, ob xAI eine neue Technologie eingesetzt hat.
Sie könnten einfach Geld verschwenden, um Marktanteile zu erlangen. Ich glaube nicht, dass man daraus auf die Verwendung einer bestimmten Architektur schließen kann.
Aber selbst wenn Grok-4-fast nicht die Technologie von NVIDIA verwendet, ist diese Publikation dennoch sehr wertvoll, da Jet-Nemotron auch weiterhin zur Kostenreduktion eingesetzt werden kann. Außerdem ist es unwahrscheinlich, dass xAI in so kurzer Zeit eine andere Technologie entwickelt hat, die ähnlich effektive Ergebnisse wie Jet-Nemotron erzielt.
Natürlich könnte es auch ein anderer Algorithmusbruch sein. Wenn das der Fall ist, wäre es dennoch sehr bahnbrechend, da Jet-Nemotron auch weiterhin zur Kostenreduktion eingesetzt werden kann. Aber ehr