Lao Huang dringt in OpenClaw-Gefecht ein: Stärkstes Open-Source-"Hummer"-Modell nähert sich Opus 4.6

OpenClaw hat wieder einen wichtigen Spieler gewonnen! Nvidia hat in der späten Nacht mit dem Nemotron 3 Super auf die Bühne getreten. Mit 120 Milliarden Parametern, speziell für Agenten entwickelt, ist seine Leistung fast mit der von Claude Opus 4.6 vergleichbar. Die Inferenzgeschwindigkeit hat sich verdreifacht und der Durchsatz ist um das Fünffache gestiegen. "Lobster" scheint in den Himmel zu fliegen.

Der weltweit führende Konzern im Marktwert hat sich auch auf dem OpenClaw-Gebiet engagiert!

Letzte Nacht hat Nvidia mit der neuen Open-Source-Modellfamilie „Nemotron 3 Super“ einen schweren Schuss gefeuert, das speziell für Massen-AI-Agenten entwickelt wurde.

Es verfügt über 120 Milliarden Parameter, 12 Milliarden Aktivierungsparameter und einen Kontext von 1 Million Tokens. Die Inferenzgeschwindigkeit ist um das Dreifache erhöht, und der Durchsatz hat sich vervielfacht um das Fünffache.

Nemotron 3 Super nutzt eine innovative Mamba-MoE-Hybridarchitektur, die die Leistungsschranken bei der Zusammenarbeit mehrerer Agenten endgültig beseitigt.

Darüber hinaus ist es das erste Modell in der „Nemotron 3-Familie“, das die folgenden drei Durchbrüche erzielt hat:

Es wird nativ mit NVFP4-Präzision vorab trainiert;

Die neue LatentMoE-Hybrid-Expert-Architektur optimiert die „Genauigkeit pro Rechenleistungseinheit“ und die „Genauigkeit pro Parameter“ aufs Extrem;

Das Einführen der MTP-Schicht (Multi-Token-Vorhersage) beschleunigt die Inferenzgeschwindigkeit durch native „Spekulative Decoding“-Technik.

Im Pinchbench-Benchmark führt Nemotron 3 Super bei weitem an und hält die Spitze in der Open-Source-Welt fest.

Beim Erfolgsverhältnis von OpenClaw-Aufgaben erreicht es mit 85,6 % eine Spitzenleistung, die der von Claude Opus 4.6 und GPT-5.4 nahekommt.

Man kann sagen, dass das „stärkste Open-Source-Modell“ für OpenClaw nun existiert!

Heute werden die Datensätze für die Vor- und Nachbearbeitung von über 10 Billionen Tokens, die vollständige Trainingsmethodik und 15 Umgebungen für die verstärkte Lernphase von Nemotron 3 Super vollständig Open-Source gemacht.

Link: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

Nvidias 120-Milliarden-Parameter-Riese sorgt für Furore und ist perfekt für OpenClaw geeignet

Heutzutage treffen Chatbots auf zwei Hürden, wenn es um die Entwicklung zu Multi-Agent-Anwendungen geht.

Die erste ist die Explosion des Kontexts.

Die Anzahl der Tokens, die in Multi-Agent-Arbeitsabläufen generiert werden, ist bis zu 15-mal höher als bei normalen Gesprächen.

Das liegt daran, dass bei jeder Interaktion die vollständige Gesprächsgeschichte, einschließlich der Werkzeugausgaben und der Zwischenschritte, erneut gesendet werden muss.

Beim Ausführen langfristiger Aufgaben erhöht diese massive Datenmenge nicht nur die Kosten, sondern führt auch leicht zu einem Zielverschiebungseffekt (goal drift), d.h. die Agenten entfernen sich allmählich von ihrem ursprünglichen Ziel.

Die zweite ist die „Denksteuer“ (thinking tax).

Komplizierte Agenten müssen bei jedem Schritt eine Inferenz durchführen. Aber wenn bei jeder Teilaufgabe ein Large Language Model (LLM) aufgerufen wird, werden die Kosten für Multi-Agent-Anwendungen extrem hoch und die Reaktionszeit wird unzumutbar lang, was die praktische Anwendbarkeit einschränkt.

Deshalb hat Nvidia mit Nemotron 3 Super diese beiden „Fesseln“ für Agenten-Anwendungen endgültig gebrochen.

Link zur Studie: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

Wie bereits erwähnt, hat Nemotron 3 Super einen Kontext von 1 Million Tokens.

Vor allem in OpenClaw-Umgebungen kann die KI den gesamten Arbeitsablaufzustand im Arbeitsspeicher behalten und die logische Konsistenz von Anfang bis Ende gewährleisten.

Im Artificial Analysis hat Nemotron 3 Super das State-of-the-Art (SOTA) verbessert und die Spitze in Effizienz und Open-Source-Rankings erreicht.

Unter den Open-Source-Modellen gleicher Größe führt es auch bei der Genauigkeit bei weitem an.

Zugleich hat der von Nemotron 3 Super unterstützte NVIDIA AI-Q-Forschungs-Agent die Spitze in den Rankings des DeepResearch Bench und DeepResearch Bench II erreicht.

In den nächsten fünf Jahren wird Nvidia 26 Milliarden US-Dollar in die Entwicklung weltweit führender Open-Source-Modelle investieren.

Revolution der Hybridarchitektur: Der Durchsatz steigt um das Fünffache

Diesmal hat Nvidia die unterliegende Architektur von Nemotron 3 Super neu gestaltet.

Das 88-Schichten-Netzwerk ist periodisch alternierend aufgebaut. Die Mamba-2-Schichten sind für die effiziente Sequenzmodellierung verantwortlich und bieten eine lineare Zeitkomplexität.

Einige wenige Transformer-Attention-Schichten dienen als „globale Anker“ und sorgen für die Informationsweiterleitung über lange Distanzen und hochpräzise Inferenz.

Im Vergleich zum Vorgänger-Modell Nemotron Super hat sich der Durchsatz um das Fünffache und die Genauigkeit um das Zweifache verbessert.

Im Vergleich zu GPT-OSS-120B und Qwen3.5-122B hat Nemotron 3 Super in allen Tests die besten Ergebnisse erzielt.

Bei einer Eingabesequenzlänge von 8k und einer Ausgabesequenzlänge von 64k ist der Durchsatz um das 2,2-fache höher als bei GPT-OSS-120B und um das 7,5-fache höher als bei Qwen3.5-122B.

LatentMoE: Ein Expertenentwurf, der die Hardwarekenntnisse nutzt und die Genauigkeit maximiert

Wichtiger noch: Nemotron 3 Super führt erstmals „Latent MoE“ ein.

Die Lösung von LatentMoE ist sehr elegant. Vor dem Routing und der Expert-Berechnung werden die Tokens von der versteckten Dimension d auf eine kleinere latente Dimension ℓ projiziert. Sowohl das Routing als auch die Expert-Berechnung erfolgen in dieser viel kleineren Dimension.

Das bedeutet, dass die Anzahl der zu ladenden Expert-Parameter und der Kommunikationsaufwand zwischen den Grafikkarten um den Faktor d/ℓ reduziert werden!

Die eingesparten Ressourcen können genutzt werden, um die Anzahl der Experten und die Anzahl der gleichzeitig aktiven Experten um denselben Faktor zu erhöhen. Das entspricht einer "kostenlosen" Verbesserung der Genauigkeit, ohne dass die Inferenzkosten wesentlich steigen.

Die offizielle Nvidia-Blogformulierung ist noch anschaulicher: Mit der Rechenleistung eines Experten können vier Experten aktiviert werden.

Im Vergleich zu herkömmlichen MoE-Ansätzen ist LatentMoE in Bezug auf die Parameterausnutzung und die Rechenleistungseffizienz überlegen.

Multi-Token-Vorhersage: Leistung und Inferenz-Effizienz in einem Zug

Nemotron 3 Super hat noch eine weitere Waffe in der Arme: Multi-Token-Vorhersage (MTP), die sowohl die Modellqualität als auch die Inferenz-Effizienz verbessert.

Bei herkömmlichen Trainingsmethoden wird immer nur das nächste Token vorhergesagt. MTP hingegen verlangt, dass das Modell an jeder Position mehrere zukünftige Tokens auf einmal vorhersagt.

Dies zwingt das Modell, die kausalen Beziehungen zwischen mehreren Schritten und die langfristige Textstruktur zu verstehen.

Tatsächlich hat sich gezeigt, dass diese Methode sehr effektiv ist. Sowohl der Verlust auf dem Validierungsdatensatz als auch die Leistung bei den Downstream-Tests haben sich deutlich verbessert.

Außer der Verbesserung der Intelligenz bietet MTP noch einen großen Vorteil: Native Spekulative Decoding.

Die zusätzlichen Vorhersageköpfe fungieren wie ein eingebautes "Entwurfsmodel" im Modell.

Bei der Inferenz generieren die Vorhersageköpfe zunächst schnell einen Entwurf (die nächsten Tokens), und dann überprüft das Hauptmodell diese Entwürfe in einem Vorwärtsdurchlauf.

Dies reduziert die Generierungsverzögerung stark, und die zusätzlichen Rechenkosten (FLOPs) sind im Vergleich zu einem externen Entwurfsmodel vernachlässigbar.

Native NVFP4-Präzision bei der Vorab-Trainierung

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Lao Huang dringt in das OpenClaw-Gefecht ein. Das stärkste Open-Source-"Hummer"-Modell nähert sich direkt Opus 4.6.

Nvidias 120-Milliarden-Parameter-Riese sorgt für Furore und ist perfekt für OpenClaw geeignet

Revolution der Hybridarchitektur: Der Durchsatz steigt um das Fünffache

LatentMoE: Ein Expertenentwurf, der die Hardwarekenntnisse nutzt und die Genauigkeit maximiert

Multi-Token-Vorhersage: Leistung und Inferenz-Effizienz in einem Zug

Native NVFP4-Präzision bei der Vorab-Trainierung