Nvidias neues Modell ist online. Die Inferenzleistung des 4B-Modells hat sich um das 53-fache verbessert. Die neue Attention-Architektur übertrifft Mamba 2.
Jet-Nemotron ist die neueste Serie kleiner Modelle (2B/4B) von NVIDIA, die von einem Team ausschließlich chinesischer Fachleute entwickelt wurde. Der Kerninnovation liegt in der Einführung der Post Neural Architecture Search (PostNAS) und des neuen linearen Attention-Moduls JetBlock, wodurch eine effiziente Architekturoptimierung ausgehend von einem vortrainierten Transformer-Modell erreicht wird. Im Vergleich zu Modellen wie Qwen3, Gemma3 und Llama3.2 erzielt Jet-Nemotron höhere Genauigkeiten in den Dimensionen Mathematik, Code, Allgemeinwissen, Retrieval und Langkontext. Gleichzeitig wird die Inferenz-Throughput auf H100-GPUs um bis zu 53-fach erhöht.
NVIDIA ist derzeit wirklich von „kleinen Modellen“ fasziniert.
NVIDIA hat eine brandneue Serie von Hybrid-Architektur-Sprachemodellen namens Jet-Nemotron veröffentlicht.
Paper: https://arxiv.org/pdf/2508.15884
Projekt: https://github.com/NVlabs/Jet-Nemotron
Die Jet-Nemotron-Serie umfasst die Modelle Jet-Nemotron-2B und Jet-Nemotron-4B.
NVIDIA behauptet, dass die kleinen Modelle der Jet-Nemotron-Serie die Leistung aktuell führender Open-Source-Voll-Attention-Sprachemodelle wie Qwen3, Qwen2.5, Gemma3 und Llama3.2 übertreffen.
Gleichzeitig wird eine signifikante Effizienzsteigerung erreicht, wobei die Generierungs-Throughput auf H100-GPUs um bis zu 53,6-fach erhöht werden kann.
In der Radar-Diagramm oben rechts sieht man, dass Jet-Nemotron ein Alleskönner ist.
Das Jet-Nemotron-4B-Modell erreicht nahezu maximale Leistungen in sechs Dimensionen: MMLU-pro, Mathematik, Retrieval, Allgemeinwissen, Code, Langkontext.
Während der Vorauffüll- und Decodierungsphasen wird der Vorteil von Jet-Nemotron-2B gegenüber Qwen 3-1,7B umso größer, je länger der Kontext wird.
Zusammengefasst: Unter gleichen Hardware- und Testbedingungen erreicht Jet-Nemotron in Langkontext-Szenarien eine um Größenordnungen höhere Throughput (bis zu 50-fach bei der Decodierung).
Gleichzeitig steigt die Genauigkeit in den Dimensionen Allgemeinwissen, Mathematik, Code, Retrieval und Langkontext sogar an.
Im Vergleich zu herkömmlichen kleinen Voll-Attention-Modellen ist Jet-Nemotron sowohl schneller als auch genauer.
Es scheint, dass NVIDIA auf das Gebiet der kleinen Modelle (Small Model) setzt.
Letzte Woche haben sie das nur 9B große NVIDIA Nemotron Nano 2-Modell veröffentlicht.
Bei komplexen Inferenz-Tests erreicht es eine ähnliche oder bessere Genauigkeit wie Qwen3-8B, und die Throughput kann bis zu 6-fach höher sein.
Heute präsentieren sie die noch kleineren Jet-Serie mit Modellen in der Größe von 2B und 4B.
Kerninnovationen
Jet-Nemotron verfügt über zwei Kerninnovationen.
- Post Neural Architecture Search (PostNAS), ein effizienter Prozess zur Architektur-Exploration und -Anpassung nach dem Training, der für beliebige vortrainierte Transformer-Modelle geeignet ist;
- JetBlock, ein neues lineares Attention-Modul, dessen Leistung deutlich besser ist als die früherer Designs wie Mamba2.
PostNAS: Architektur-Exploration und -Anpassung nach dem Training
Im Gegensatz zu früheren Methoden, die von Grund auf neu trainieren, um neue Modellarchitekturen zu entdecken, baut PostNAS auf vortrainierten Transformer-Modellen auf.
Es ermöglicht gleichzeitig eine flexible Exploration von Attention-Block-Designs, wodurch die Kosten und Risiken bei der Entwicklung neuer Sprachmodellarchitekturen erheblich reduziert werden.
PostNAS bestimmt zunächst die optimale Position der Voll-Attention-Schichten und sucht dann nach verbesserten Attention-Block-Designs.
PostNAS beginnt mit einem vortrainierten Voll-Attention-Modell und freezed das MLP.
Anschließend wird eine von grob nach fein gehende Suche nach effizienten Attention-Block-Designs durchgeführt:
Zunächst wird die optimale Position der Voll-Attention-Schichten festgelegt, dann wird das passendste lineare Attention-Block ausgewählt oder ein neues lineares Attention-Block entwickelt, und schließlich wird nach den optimalen Architektur-Hyperparametern gesucht.
Durch die Anwendung von PostNAS auf Basis-Modelle wird auf allen Testmatrizen eine signifikante Genauigkeitssteigerung erreicht.
In vortrainierten Transformer-Modellen tragen nicht alle Attention-Schichten gleichermaßen bei.
PostNAS identifiziert die wichtigen Attention-Schichten in vortrainierten Transformer-Modellen.
Die Größe des KV-Caches ist der entscheidende Faktor für die Throughput in Langkontext- und Langgenerierungs-Szenarien.
Die hardware-aware Suche von PostNAS kann Architekturen entdecken, die bei ähnlicher Generierungs-Throughput mehr Parameter haben und höhere Genauigkeiten erreichen.
JetBlock: Ein neues lineares Attention-Modul mit SOTA-Genauigkeit
Durch PostNAS wurde JetBlock eingeführt: Ein neues lineares Attention-Modul, das dynamische Konvolutionen mit hardware-aware Architektur-Suche kombiniert, um die lineare Attention zu verbessern. Es erreicht eine signifikante Genauigkeitssteigerung bei gleichbleibender Trainings- und Inferenz-Throughput im Vergleich zu früheren Designs.
Im Folgenden wird ein fairer Vergleich zwischen Mamba2 Block und JetBlock unter Verwendung der gleichen Trainingsdaten und des gleichen Trainingsschemas durchgeführt.
Leistung
Jet-Nemotron-2B und Jet-Nemotron-4B erreichen oder übertreffen in umfassenden Tests die Genauigkeiten von führenden effizienten Sprachmodellen (z. B. Qwen3).
Gleichzeitig sind sie deutlich schneller – 21-fach bzw. 47-fach schneller als Qwen3-1,7B-Base.
Referenzen
https://arxiv.org/pdf/2508.15884v1
https://x.com/hancai_hm/status/1960000017235902722
Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Verfasser: Dinghui. 36Kr hat die Veröffentlichung autorisiert.