NVIDIA macht was Meta nicht kann: Sechsfacher Anstieg der Durchsatzleistung und Verarbeitung von 20 Milliarden Tokens durch neue Architektur

NVIDIA hat wieder ein neues Modell herausgebracht.

NVIDIA hat ein neues 9-Milliarden-Parameter-Modell mit neuer Architektur vorgestellt. Mit der hybriden Mamba-Transformer-Architektur erreicht es eine bis zu sechsfache Steigerung der Inferenzdurchsatzleistung und ist mit Qwen3-8B vergleichbar oder sogar überlegen in mathematischen Aufgaben, Codierung, Inferenz und Aufgaben mit langer Kontextlänge.

Es hätte ich nie gedacht, dass es jetzt NVIDIA ist, das unseren Open-Source-Modellen so dicht auf den Fersen ist.

Gerade eben hat NVIDIA ein Modell namens NVIDIA Nemotron Nano 2 mit nur 9 Milliarden Parametern veröffentlicht.

Es wird mit dem Branchenführer Qwen3-8B von Qianwen verglichen, aber es handelt sich um eine völlig andere hybride Architektur.

Nach NVIDIA ist es ein revolutionäres Sprachmodell mit einer hybriden Mamba-Transformer-Architektur.

Im komplexen Inferenz-Benchmark erreicht es eine vergleichbare oder bessere Genauigkeit wie Qwen3-8B, und der Durchsatz ist bis zu sechs Mal höher.

Es hat nur ein Ziel: Im komplexen Inferenzaufgaben soll es einen beispiellosen Durchsatz erzielen und gleichzeitig die Spitzenleistung in Bezug auf Genauigkeit unter den gleichwertigen Modellen behalten!

Ein einfacher Test auf der offiziellen Website zeigt, dass es einige klassische Fragen beantworten kann.

NVIDIA hat auch drei kleine Tools entwickelt, mit denen man die aktuelle Wetterlage abfragen, Charaktere aus Harry Potter beschreiben und Farben vorschlagen lassen kann.

Das 9-Milliarden-Parameter-Modell ist allerdings noch etwas klein. Wenn man es z. B. nach „Wer von Sam Altman, Elon Musk und Jensen Huang ist vertrauenswürdiger“ fragt, macht es einen dummen Fehler und übersetzt Musk in „Ma Ke“, haha.

Und es ist auch kein Wunder, dass es Jensen Huang als den vertrauenswürdigsten einstuft.

Das Geheimnis der Geschwindigkeit

Unterstützung durch die Mamba-2-Architektur!

Die Stärke von Nemotron-Nano-9B-v2 beruht auf seiner innovativen Nemotron-H-Architektur.

Es ersetzt die meisten Selbst-Attention-Schichten in der traditionellen Transformer-Architektur durch blitzschnelle Mamba-2-Schichten.

Wenn das Modell lange Texte generieren oder komplexe Denkketten entwickeln muss, wird seine Inferenzgeschwindigkeit episch verbessert!

Kurze Einführung in die Mamba-Architektur

Wir kennen alle die Transformer-Architektur, aber sind in den letzten Jahren neue Architekturen aufgetaucht?

Ja, es gibt einige.

Beispielsweise hat Meta die Entwicklung von JEPA (Joint Embedding Prediction Architecture) und Large Concept Models (LCMs), State Space Models (d. h. Mamba), Memory Models oder Diffusion Language Models vorangetrieben.

Google DeepMind hat etwa 50 % seiner Forschungsressourcen in die Entwicklung von Modellen wie Titans, Atlas, Genie3 und diffusion-basierten Modellen investiert.

Obwohl OpenAI behauptet, es sei zuversichtlich, GPT-8 trainieren zu können, liegt es nahe, dass es auch neue Architekturen vorbereitet.

Nach Diskussionen in der Reddit-Community ist es sehr wahrscheinlich, dass Ilya's SSI eine völlig neue Architektur verwendet, aber noch weiß niemand, welche.

Mamba ist eine sequentielle Modellierungsarchitektur ohne Selbst-Attention-Mechanismus, die auf strukturierten State Space Models (SSMs) basiert.

Über einen „Selektionsmechanismus“ werden die Parameter dynamisch an die aktuelle Eingabe angepasst, um relevante Informationen zu behalten und irrelevante zu ignorieren.

Beim Umgang mit sehr langen Sequenzen soll die Inferenzgeschwindigkeit von Mamba 3 - 5 Mal höher sein als die von Transformer, und seine Komplexität ist linear, was die Verarbeitung von extrem langen Kontexten (bis zu einer Million Tokens) ermöglicht.

Warum eine hybride Mamba-Transformer-Architektur?

Obwohl der Transformer hervorragende Ergebnisse erzielt, hat er beim Umgang mit langen Sequenzen erhebliche Rechen- und Speicherengpässe (aufgrund des O(n^2)-Scalings des Selbst-Attention-Mechanismus).

Mamba ist gut darin, lange Kontexte effizient zu modellieren, aber es kann in Aufgaben wie „Memory Copying“ oder „In-Context Learning“ etwas schwächen.

Die extreme Raffination von 12 Milliarden auf 9 Milliarden Parameter

Das Training von NemotronNanov2 erfolgt in folgenden Schritten:

· „Brutale“ Vor-Training

Zunächst wird auf einem riesigen Datensatz mit 20 Billionen Tokens unter Verwendung eines fortschrittlichen FP8-Trainingsschemas ein Basis-Modell mit 12 Milliarden Parametern – Nemotron-Nano-12B-v2-Base – geschaffen.

Das klingt sehr ähnlich wie DeepSeek-R1: DeepSeek‑R1-Zero ist ein initiales Modell, das direkt auf DeepSeek‑V3-Base basiert und nur mit Reinforcement Learning trainiert wird.

DeepSeek‑R1 fügt auf dieser Basis eine überwachte Feinabstimmung als Cold-Start hinzu und verfeinert es dann mit Reinforcement Learning, um eine bessere Lesbarkeit und Leistung zu erzielen.

Das Vor-Training von Nemotron-Nano-12B-v2-Base umfasst hochwertige Webseiten, Mehrsprachigkeit, Mathematik, Code, akademische Daten und konzentriert sich insbesondere auf die Erstellung von hochpräzisen mathematischen und Code-Datensätzen.

· Extreme Kompression und Distillation

Durch die Kombination von mehrstufigen Anpassungsmethoden wie SFT, DPO, GRPO, RLHF wird die Inferenz-, Dialog-, Tool-Aufruf- und Sicherheitseigenschaft verbessert.

Nach der Anpassung wird die Minitron-Strategie angewendet, um das 12-Milliarden-Parameter-Modell extrem zu komprimieren und zu distillieren.

Die Minitron-Strategie ist eine von NVIDIA vorgeschlagene Modellkompressionsmethode, die hauptsächlich durch strukturiertes Pruning und Wissensdistillation die effiziente Kompression und Leistungserhaltung großer Sprachmodelle erreicht.

· Endziel

Durch Minitron-Pruning und -Distillation wird das 12-Milliarden-Parameter-Basis-Modell auf 9 Milliarden Parameter komprimiert, sodass ein einzelner A10G-GPU (22 GiB) einen 128k-Kontext unterstützen kann.

Leistungsschlag, Genauigkeit und Geschwindigkeit in einem!

Man muss das Pferd aus dem Stall holen, um zu sehen, ob es gut läuft!

Im Vergleich zu starken Mitbewerbern wie Qwen3-8B erreicht Nemotron-Nano-9B-v2 in verschiedenen Inferenz-Benchmarks eine vergleichbare oder sogar bessere Genauigkeit!

Es zeigt sich in Benchmarks wie Mathematik (GSM8K, MATH), Code (HumanEval+, MBPP+), allgemeine Inferenz (MMLU-Pro), langer Kontext (RULER128k) besser oder gleich gut wie andere Open-Source-Modelle (z. B. Qwen3-8B, Gemma3-12B).

Und es erreicht in einem 8k-Eingabe/16k-Ausgabe-Szenario eine 6,3-fache Steigerung des Durchsatzes.

Vollständige Open-Source-Veröffentlichung

NVIDIA hat angekündigt, die folgenden Ressourcen auf der HuggingFace-Plattform vollständig freizugeben:

Es werden auf HuggingFace drei Modelle veröffentlicht, die alle einen 128K-Kontext unterstützen:

NVIDIA-Nemotron-Nano-9B-v2: Ein angepasstes und gepruntes Inferenzmodell

NVIDIA-Nemotron-Nano-9B-v2-Base: Ein gepruntes Basis-Modell

NVIDIA-Nemotron-Nano-12B-v2-Base: Das Basis-Modell vor der Anpassung oder Pruning

Neben den Modellen hat NVIDIA auch angekündigt, dass seine Datensätze sehr gut sind und hat den Großteil der Daten für das Vor-Training open source gemacht.

Die Datensatz-Sammlung Nemotron-Pre-Training-Dataset-v1 enthält 6,6 Billionen Tokens aus hochwertigen Webseiten, Mathematik, Code, SFT und mehrsprachigen Frage-Antwort-Daten. Der Datensatz ist in vier Kategorien organisiert:

Nemotron-CC-v2: Eine Weiterentwicklung von Nemotron-CC (Su et al., 2025), mit acht neuen CommonCrawl-Snapshots (2024 - 2025). Die Daten wurden global dedupliziert und mit Qwen3-30B-A3B synthetisch umgeschrieben. Darüber hinaus enthält es synthetische, vielfältige Frage-Antwort-Paare in 15 Sprachen, die eine starke mehrsprachige Inferenz und allgemeine Wissensvor-Training ermöglichen.

Nemotron-CC-Math-v1: Ein auf Mathematik fokussierter

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。