Nvidias All-Modal Large Model: Schnell Huang Renxun's 3-minütige Rede erledigen, 9-mal höherer Durchsatz als ähnliche Modelle

Ein Modell löst Text, Vision und Sprache.

Zhidongxi berichtete am 29. April, dass NVIDIA gestern offiziell das neue multimodale Inferenzmodell Nemotron 3 Nano Omni vorgestellt hat. Es integriert die Fähigkeiten der drei Modalitäten Text, Vision und Sprache tief in ein einziges Modellsystem und kann derzeit kostenlos genutzt werden.

Als neuestes Mitglied der Nemotron 3-Serie kann Nemotron 3 Nano Omni verschiedene Eingaben wie Text, Bilder, Audio, Videos, Dokumente, Diagramme und grafische Benutzeroberflächen verarbeiten und in Textform ausgeben. Darüber hinaus kann das Modell je nach Aufgabe und Modalität Expertisenetze dynamisch aktivieren, um bei hohem Durchsatz eine starke multimodale Wahrnehmungsfähigkeit zu erreichen, so dass der Gesamt-Durchsatz das 9-fache von vergleichbaren offenen multimodalen Modellen beträgt.

Derzeit belegt das Modell die ersten fünf Plätze in den Dokument-Intelligenz-Ranglisten wie MMlongbench-Doc und OCRBenchV2. Bei Aufgaben zur Video- und Audioverstehen hat es auf DailyOmni und VoiceBench den ersten Platz belegt und Qwen3-Omni-30B-A3B-Thinking sowie Gemini 2.5Flash übertroffen.

▲ OCRBenchV2-Rangliste

▲ DailyOmni-Rangliste

Abgesehen von der Genauigkeit zeigen MediaPerf-Daten, dass es in Szenarien mit mehreren Aufgaben den höchsten Durchsatz erreicht und bei Aufgaben zur Video-Beschriftung die geringsten Inferenzkosten hat.

In Bezug auf den Trainingsdatensatz zeigt Hugging Face, dass Nemotron 3 Nano Omni Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct und gpt-oss-120b zur Verbesserung verwendet hat.

Nach Tests von ausländischen Nutzern erkennt das Nemotron 3 Nano Omni-Modell Videoinhalte schnell und präzise, kann Vortrags-Videos schnell analysieren und die Schlüsselinformationen extrahieren; es kann auf Fragen zu spezifischen Themen in Vorträgen antworten, und die Antworten stimmen gut mit dem Originaltext überein. Gleichzeitig kann es technische Fachdokumente lesen und analysieren und auf schwierige technische Fragen zur Modelltrainierung antworten. Insgesamt zeigt es eine gute Verständnisfähigkeit, Fähigkeiten zur multimodalen Informationsverarbeitung und zur Interpretation von Fachinhalten.

Open-Source-URL:

https://nvda.ws/420h6mR

https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free

Offizielle URL:

https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

01. Kann Videoinhalte schnell verstehen und relevante Abschnitte lokalisieren

In einem praktischen Test hat ein ausländischer Blogger ein Vortrags-Video von Jensen Huang auf der NVIDIA GTC 2026, das über drei Minuten lang war, hochgeladen und direkt an das Modell Fragen zum Videoinhalt gestellt. Nemotron 3 Nano Omni hat in nur wenigen Sekunden das Bild und die Sprache gemeinsam verstanden, nicht nur die Kernaussagen des Vortrags genau zusammengefasst, sondern auch die Schlüsselinformationen im spezifischen Kontext angegeben.

Anschließend hat der Blogger weiter gefragt: „Was hat Jensen Huang genau über die Rangliste gesagt?“ Auf der Grundlage des bestehenden Video-Kontexts hat das Modell schnell die relevanten Abschnitte lokalisiert und eine detailliertere Antwort gegeben, was seine Fähigkeit zur kontinuierlichen Erinnerung an Langzeit-Videoinhalte und zur multimodalen Suche zeigt.

Er hat auch die technischen Dokumente von Nemotron 3 Nano Omni direkt in das Modell eingegeben und es aufgefordert, die Trainingsmethode des Modells zu erklären. Trotz des Wechsels von Video- zu Textinformationen kann das Modell nahtlos weiterarbeiten und in einem einzigen Inferenzrahmen komplexe technische Details analysieren und die Schlüssellogik, einschließlich des Hybrid-Expertisen-Frameworks, der Daten und des Trainingsablaufs, aufarbeiten.

Die Hauptanwendungsgebiete von Nemotron 3 Nano Omni umfassen die Navigation in grafischen Benutzeroberflächen für Computer-Nutzer-Agenten, die Dokumentenintelligenz in Unternehmensanalyse- und Compliance-Prozessen sowie die Video- und Audioverstehen in Kundendienst- und Forschungsanwendungen. Das Modell bietet offene Gewichte, Datensätze und Trainingsmethoden und kann in lokalen Systemen, Rechenzentren und Cloud-Umgebungen eingesetzt werden, um regulatorische, souveräne oder datenlokalisierungsbezogene Anforderungen zu erfüllen.

Zu den frühen Adoptoren gehören Aible, Foxconn, Palantir und H Company, während Unternehmen wie Dell Technologies, DocuSign, Infosys und Oracle das Modell derzeit evaluieren. Die Nemotron 3-Modellreihe wurde in den letzten 12 Monaten bereits über 50 Millionen Mal heruntergeladen.

02. Der Durchsatz ist das 9-fache von vergleichbaren offenen multimodalen Modellen

Die Kernmerkmale von Nemotron 3 Nano Omni konzentrieren sich auf die hybride MoE-Architektur, die effiziente zeitliche und räumliche Verarbeitung von Bildern sowie die umfassende multimodale Fähigkeit. Es kann je nach Aufgabe und Modalität Expertisenetze dynamisch aktivieren, um bei hohem Durchsatz eine starke multimodale Wahrnehmungsfähigkeit zu erreichen, so dass der Gesamt-Durchsatz das 9-fache von vergleichbaren offenen multimodalen Modellen beträgt.

Die hybride MoE-Kernarchitektur integriert innovativ die Mamba-Schicht und die Transformer-Schicht. Die Mamba-Schicht verbessert die Effizienz der Sequenzverarbeitung und die Speicherausnutzung, während die Transformer-Schicht die genaue Inferenzberechnung gewährleistet. Diese integrierte Gestaltung verbessert nicht nur den Datenverarbeitungsdurchsatz erheblich, sondern auch die Speicher- und Rechenleistung um bis zu 4-fach, was es in der Rolle von Sub-Agenten äußerst anpassungsfähig macht.

Bei der Video-Inferenz unter dem gleichen Interaktionsschwellenwert kann Nemotron 3 Nano Omni einen höheren Gesamt-Durchsatz aufrechterhalten. Im Vergleich zu alternativen offenen omnidirektionalen Modellen kann seine effektive Systemkapazität um etwa 9,2-fach erhöht werden.

Bei der Inferenz von mehreren Dokumenten unter dem gleichen Interaktionsschwellenwert kann Nemotron 3 Nano Omni ebenfalls einen höheren Gesamt-Durchsatz aufrechterhalten. Im Vergleich zu alternativen offenen omnidirektionalen Modellen kann seine effektive Systemkapazität um etwa 7,4-fach erhöht werden.

Von der früheren Version Nemotron Nano VL V2 bis zu Nemotron 3 Nano Omni hat sich die multimodale Genauigkeit in branchenführenden Benchmarks verbessert.

03. Ein Open-Source-Modell, das multimodale Verarbeitungsfähigkeiten in einer einheitlichen Architektur integriert

Derzeit erlebt der Bereich der Agenten-Inferenz einen Boom an Open-Source-AI-Modellen, und der Wettbewerb auf dem Markt wird immer intensiver: Metas Llama-Serie hat seit langem die Spitze in der Open-Source-Big-Language-Modell-Branche inne; Google Gemini konzentriert sich auf die Super-Multimodalfähigkeit in der Cloud, um sich von der Konkurrenz abzuheben; OpenAIs GPT-Serie ist immer noch der Standard in der kommerziellen Nutzung; Deepseeks neueste Versionen V4-Pro und V4-Flash, die letzte Woche veröffentlicht wurden, optimieren gezielt Aufgaben für Langzeit-Agenten mit einer hybriden Aufmerksamkeitsarchitektur und bereichern so das Angebot auf dem Markt weiter.

Der Kernunterschied von Nemotron 3 Nano Omni liegt nicht in der Verbesserung einzelner Leistungsparameter, sondern in der einzigartigen Kombination von vier Vorteilen: Einheitliche multimodale Wahrnehmung von Bildern, Audio und Text in einem einzigen Modell, hocheffiziente Anpassung an Edge-Bereitstellungen durch Hybrid-Expertisen, offene Open-Source-Gewichte und uneingeschränkte kommerzielle Lizenz. Derzeit gibt es keine Konkurrenzprodukte, die alle diese Eigenschaften gleichzeitig haben. Die Vergleichsprodukte haben jeweils ihre Schwächen: Googles Edge-Modell Gemini Nano ist nicht Open-Source, und die multimodale Version von Meta Llama kann die Audioverarbeitung nicht in einer einheitlichen Architektur integrieren.

04. Fazit: Ein „Schlüsselzug“ von NVIDIA zur Verbesserung ihrer AI-Strategie

Die strategische Bedeutung dieses Modells geht weit über das Produkt selbst hinaus. Wenn es zur Hauptwahl für die Agenten-Bereitstellung wird, wird NVIDIA die Infrastruktur von Inferenz-GPUs, das optimierte Beschleunigungs-Software-Framework und die selbst entwickelten oberen Modelle integrieren. Wenn die Konkurrenz auf Basis von NVIDIA-Modellen weiterentwickelt, wird die Abhängigkeit von NVIDIA-Hardware weiter zunehmen; selbst wenn die Konkurrenten ihre eigenen Modelle entwickeln, können sie bei der Modellierung nicht auf die Rechenleistung von NVIDIA-GPUs verzichten. In der Ära der Agenten-AI beschleunigt sich alles. Das Hauptziel von NVIDIA ist nicht die Monopolisierung einzelner Bereiche, sondern die Penetration in alle Kernbereiche der Branche, um eine unverzichtbare Position zu erreichen.

Dieser Artikel stammt aus dem WeChat-Account „Zhidongxi“ (ID: zhidxcom), Autor: Xu Jiayang. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Nvidias All-Modal Large Model ist hier. Es kann Huang Renxun's 3-minütige Rede in wenigen Sekunden erledigen, und der Durchsatz ist neunmal höher als der von ähnlichen Modellen.

01. Kann Videoinhalte schnell verstehen und relevante Abschnitte lokalisieren

02. Der Durchsatz ist das 9-fache von vergleichbaren offenen multimodalen Modellen

03. Ein Open-Source-Modell, das multimodale Verarbeitungsfähigkeiten in einer einheitlichen Architektur integriert

04. Fazit: Ein „Schlüsselzug“ von NVIDIA zur Verbesserung ihrer AI-Strategie