StartseiteArtikel

Nvidias neues Modell ist online. Die Inferenzleistung des 4B-Modells hat sich um das 53-fache verbessert. Die neue Attention-Architektur übertrifft Mamba 2.

新智元2025-08-27 09:59
NVIDIA hat das kleine Modell Jet-Nemotron veröffentlicht. Mit der Technologie von PostNAS + JetBlock wird eine hohe Genauigkeit erreicht, und die Inferenzgeschwindigkeit ist 53-mal so hoch wie die von Qwen3.

Jet-Nemotron ist die neueste Serie kleiner Modelle (2B/4B) von NVIDIA, die von einem Team ausschließlich chinesischer Fachleute entwickelt wurde. Der Kerninnovation liegt in der Einführung der Post Neural Architecture Search (PostNAS) und des neuen linearen Attention-Moduls JetBlock, wodurch eine effiziente Architekturoptimierung ausgehend von einem vortrainierten Transformer-Modell erreicht wird. Im Vergleich zu Modellen wie Qwen3, Gemma3 und Llama3.2 erzielt Jet-Nemotron höhere Genauigkeiten in den Dimensionen Mathematik, Code, Allgemeinwissen, Retrieval und Langkontext. Gleichzeitig wird die Inferenz-Throughput auf H100-GPUs um bis zu 53-fach erhöht.

NVIDIA ist derzeit wirklich von „kleinen Modellen“ fasziniert.

NVIDIA hat eine brandneue Serie von Hybrid-Architektur-Sprachemodellen namens Jet-Nemotron veröffentlicht.

Paper: https://arxiv.org/pdf/2508.15884

Projekt: https://github.com/NVlabs/Jet-Nemotron

Die Jet-Nemotron-Serie umfasst die Modelle Jet-Nemotron-2B und Jet-Nemotron-4B.

NVIDIA behauptet, dass die kleinen Modelle der Jet-Nemotron-Serie die Leistung aktuell führender Open-Source-Voll-Attention-Sprachemodelle wie Qwen3, Qwen2.5, Gemma3 und Llama3.2 übertreffen.

Gleichzeitig wird eine signifikante Effizienzsteigerung erreicht, wobei die Generierungs-Throughput auf H100-GPUs um bis zu 53,6-fach erhöht werden kann.

In der Radar-Diagramm oben rechts sieht man, dass Jet-Nemotron ein Alleskönner ist.

Das Jet-Nemotron-4B-Modell erreicht nahezu maximale Leistungen in sechs Dimensionen: MMLU-pro, Mathematik, Retrieval, Allgemeinwissen, Code, Langkontext.

Während der Vorauffüll- und Decodierungsphasen wird der Vorteil von Jet-Nemotron-2B gegenüber Qwen 3-1,7B umso größer, je länger der Kontext wird.

Zusammengefasst: Unter gleichen Hardware- und Testbedingungen erreicht Jet-Nemotron in Langkontext-Szenarien eine um Größenordnungen höhere Throughput (bis zu 50-fach bei der Decodierung).

Gleichzeitig steigt die Genauigkeit in den Dimensionen Allgemeinwissen, Mathematik, Code, Retrieval und Langkontext sogar an.

Im Vergleich zu herkömmlichen kleinen Voll-Attention-Modellen ist Jet-Nemotron sowohl schneller als auch genauer.

Es scheint, dass NVIDIA auf das Gebiet der kleinen Modelle (Small Model) setzt.

Letzte Woche haben sie das nur 9B große NVIDIA Nemotron Nano 2-Modell veröffentlicht.

Bei komplexen Inferenz-Tests erreicht es eine ähnliche oder bessere Genauigkeit wie Qwen3-8B, und die Throughput kann bis zu 6-fach höher sein.

Heute präsentieren sie die noch kleineren Jet-Serie mit Modellen in der Größe von 2B und 4B.

Kerninnovationen

Jet-Nemotron verfügt über zwei Kerninnovationen.

  • Post Neural Architecture Search (PostNAS), ein effizienter Prozess zur Architektur-Exploration und -Anpassung nach dem Training, der für beliebige vortrainierte Transformer-Modelle geeignet ist;
  • JetBlock, ein neues lineares Attention-Modul, dessen Leistung deutlich besser ist als die früherer Designs wie Mamba2.

PostNAS: Architektur-Exploration und -Anpassung nach dem Training

Im Gegensatz zu früheren Methoden, die von Grund auf neu trainieren, um neue Modellarchitekturen zu entdecken, baut PostNAS auf vortrainierten Transformer-Modellen auf.

Es ermöglicht gleichzeitig eine flexible Exploration von Attention-Block-Designs, wodurch die Kosten und Risiken bei der Entwicklung neuer Sprachmodellarchitekturen erheblich reduziert werden.

PostNAS bestimmt zunächst die optimale Position der Voll-Attention-Schichten und sucht dann nach verbesserten Attention-Block-Designs.

PostNAS beginnt mit einem vortrainierten Voll-Attention-Modell und freezed das MLP.

Anschließend wird eine von grob nach fein gehende Suche nach effizienten Attention-Block-Designs durchgeführt:

Zunächst wird die optimale Position der Voll-Attention-Schichten festgelegt, dann wird das passendste lineare Attention-Block ausgewählt oder ein neues lineares Attention-Block entwickelt, und schließlich wird nach den optimalen Architektur-Hyperparametern gesucht.

Durch die Anwendung von PostNAS auf Basis-Modelle wird auf allen Testmatrizen eine signifikante Genauigkeitssteigerung erreicht.

In vortrainierten Transformer-Modellen tragen nicht alle Attention-Schichten gleichermaßen bei.

PostNAS identifiziert die wichtigen Attention-Schichten in vortrainierten Transformer-Modellen.

Die Größe des KV-Caches ist der entscheidende Faktor für die Throughput in Langkontext- und Langgenerierungs-Szenarien.

Die hardware-aware Suche von PostNAS kann Architekturen entdecken, die bei ähnlicher Generierungs-Throughput mehr Parameter haben und höhere Genauigkeiten erreichen.

JetBlock: Ein neues lineares Attention-Modul mit SOTA-Genauigkeit

Durch PostNAS wurde JetBlock eingeführt: Ein neues lineares Attention-Modul, das dynamische Konvolutionen mit hardware-aware Architektur-Suche kombiniert, um die lineare Attention zu verbessern. Es erreicht eine signifikante Genauigkeitssteigerung bei gleichbleibender Trainings- und Inferenz-Throughput im Vergleich zu früheren Designs.

Im Folgenden wird ein fairer Vergleich zwischen Mamba2 Block und JetBlock unter Verwendung der gleichen Trainingsdaten und des gleichen Trainingsschemas durchgeführt.

Leistung

Jet-Nemotron-2B und Jet-Nemotron-4B erreichen oder übertreffen in umfassenden Tests die Genauigkeiten von führenden effizienten Sprachmodellen (z. B. Qwen3).

Gleichzeitig sind sie deutlich schneller – 21-fach bzw. 47-fach schneller als Qwen3-1,7B-Base.

Referenzen

https://arxiv.org/pdf/2508.15884v1

https://x.com/hancai_hm/status/1960000017235902722

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Verfasser: Dinghui. 36Kr hat die Veröffentlichung autorisiert.