StartseiteArtikel

NVIDIA öffnet ein neues Large Language Model (LLM) für die Öffentlichkeit: Jensen Huang möchte nicht nur "Schaufeln verkaufen"

新智元2025-12-17 09:52
NVIDIA hat das Nemotron 3 vorgestellt. Von der Schaufelverkauf bis hin zur eigenen Kryptomining-Aktivität eröffnet es neue Schlachtfelder in der KI-Branche.

Ende 2025 bleibt die Situation im Bereich der KI weiterhin undurchsichtig. Nvidia, das bisher eher als der "Schaufelverkäufer" fungierte, scheint nun auch selbst in den "Goldbergbau" einsteigen zu wollen. Am 15. Dezember gab Nvidia die Nemotron 3-Familie (Nano/Super/Ultra) bekannt. Zunächst wird der Nano-Modelltyp veröffentlicht, während die Super- und Ultra-Versionen für das erste Halbjahr 2026 geplant sind.

Seit langem geht die Welt davon aus, dass es im Bereich der KI eine gewisse Aufteilung der Aufgaben gibt: Nvidia und der Rest.

Der Rest umfasst: OpenAI, Meta, Google, DeepSeek, xAI und viele andere.

Das Prinzip dieser Aufteilung ist einfach: Schaufelverkäufer und Schaufelbenutzer.

Kürzlich hat Google dank seiner TPU-Chips die Fähigkeit erlangt, mit Nvidia auf Augenhöhe zu konkurrieren. Dennoch wird es Google kurzfristig schwerfallen, Nvidias Dominanz zu brechen.

Solange es noch Goldgruben gibt, verdient der Schaufelverkäufer immer, egal wer das Gold findet.

Dieses Geschäftsmodell hat es Nvidia ermöglicht, dass sein Marktwert in die Höhe geschossen ist und es zu einer der profitabelsten Technologieunternehmen weltweit gehört.

Allerdings scheint Nvidia Ende 2025 nicht mehr damit zufrieden zu sein, nur der Schaufelverkäufer zu sein. Es will selbst in den Goldbergbau einsteigen.

Nvidia hat offiziell eine neue Familie von Open-Source-Modellen - Nemotron 3 - vorgestellt.

Dies ist nicht nur eine routinemäßige Produktaktualisierung, sondern eher ein sorgfältig geplantes strategisches Manöver.

Nvidia ist nicht mehr damit zufrieden, nur die Hardwarebasis bereitzustellen. Es hat sich selbst in das Spiel eingemischt und dabei einen revolutionären "Trumpf" auf den Tisch gelegt: Mamba-Architektur, MoE (Mixture of Experts), Hybrid-Architektur, 1 Million Context (Kontextfenster).

Die Open-Source-Modelle der Nemotron 3-Serie umfassen die drei Typen Nano, Super und Ultra.

Handelt es sich bei Nemotron 3 um eine einfache Nachahmung von OpenAI oder Meta im Bereich der Open-Source-Modelle? Oder ist es eine Spielerei von Jensen Huang?

Die Analyse von Nemotron 3: Frankenstein-Modell oder ultimative Evolution?

Im Wettkampf der KI bestimmt die Architektur das Schicksal.

In den letzten Jahren war die Transformer-Architektur allmächtig. Sie ist die Seele von ChatGPT, das Fundament von Llama und die Grundlage aller großen Sprachmodelle.

Aber mit der Zunahme der Modellparameter und der zunehmenden Komplexität der Anwendungsfälle werden die Grenzen der Transformer-Architektur immer deutlicher: Hohe Inferenzkosten, hoher Speicherbedarf und geringe Effizienz bei der Verarbeitung von sehr langen Texten.

Die von Nvidia vorgestellte Nemotron 3-Familie ist kein reines Transformer-Modell, sondern ein "Hybridprinz", der das Beste aus verschiedenen Welten vereint.

Es vereint mutig die drei Spitzentechnologien Mamba (State Space Model), Transformer (Attention-Mechanismus) und MoE (Mixture of Experts).

Der Nemotron 3 Nano erreicht durch seine bahnbrechende Hybrid-Expert-Architektur eine vierfache Durchsatzleistung im Vergleich zum Nemotron 2 Nano.

Nemotron erreicht dank fortschrittlicher Techniken des Reinforcement Learnings eine hervorragende Genauigkeit durch Massivparallele Nachtraining in mehreren Umgebungen.

NVIDIA hat erstmals eine Reihe von hochmodernen Open-Source-Modellen, Trainingsdatensätzen sowie Reinforcement-Learning-Umgebungen und -Bibliotheken veröffentlicht, um die Entwicklung von hochpräzisen und effizienten spezialisierten KI-Agenten zu ermöglichen.

Die Familienstruktur: Mehr als nur "groß, mittel, klein"

Nemotron 3 bezieht sich nicht auf ein einzelnes Modell, sondern auf eine komplette Familienmatrix, die die Anforderungen von Edge-Geräten bis hin zu Cloud-Supercomputern abdecken soll.

Nach Nvidias Planung besteht diese Familie hauptsächlich aus drei Mitgliedern, jedes mit einer anderen strategischen Mission:

Nemotron 3 Nano (bereits veröffentlicht): Der "Spezialist" an den Rändern

Parameteranzahl: Insgesamt 30 Milliarden Parameter, aber nur etwa 3 Milliarden Parameter werden während der Inferenz aktiviert.

Zielgruppe: Er ist der Vorreiter der Familie und setzt auf effiziente Inferenz und Edge-Computing. Er kann problemlos auf Consumer-Grafikkarten oder sogar auf hochwertigen Laptops laufen.

Technische Highlights: Er ist derzeit der stärkste "Kleinformat" auf dem Markt. Durch die Hybrid-Architektur erreicht er eine maximale Durchsatzleistung und ist speziell für Agentenaufgaben (Intelligente Agenten) konzipiert, die eine schnelle Reaktion erfordern.

Strategische Bedeutung: Der Nano-Modelltyp soll die Machbarkeit der "Hybrid-Architektur" beweisen und schnell den Markt für Entwickler-Desktops und Edge-Geräte erobern.

Nemotron 3 Super (voraussichtlich im ersten Halbjahr 2026)

Parameteranzahl: Etwa 100 Milliarden Parameter, etwa 10 Milliarden Parameter werden während der Inferenz aktiviert.

Zielgruppe: Er ist der Mittelpunkt für Unternehmensanwendungen und die Zusammenarbeit von Multi-Agenten. Er muss das perfekte Gleichgewicht zwischen Leistung und Kosten finden.

Technischer Sprung: Es wird erwartet, dass er die fortschrittlichere Latent MoE-Technologie einführen wird, die speziell für komplexe Unternehmensworkflows entwickelt wurde.

Nemotron 3 Ultra (voraussichtlich im ersten Halbjahr 2026): Die Herausforderung an GPT-5

Parameteranzahl: Etwa 500 Milliarden Parameter, etwa 50 Milliarden Parameter werden während der Inferenz aktiviert.

Zielgruppe: Er ist das Flaggschiff der Familie und wird für die komplexesten Inferenz-, Forschungs- und Planungsaufgaben eingesetzt.

Ambitionen: Er soll direkt mit geschlossenen Modellen wie GPT-5 konkurrieren und das Dach der Inferenzleistung im Bereich der Open-Source-Modelle darstellen. Er wird Nvidias Fähigkeit zur Training von Modellen auf sehr großen Clustern demonstrieren.

Nemotron 3 Nano ist nicht nur ein Modell, sondern auch eine technische Testplattform, die beweist, dass "Mamba + MoE" auch bei kleinen Parameterzahlen eine erstaunliche Leistung erzielen kann.

Die Mamba-Architektur: Der Kampf gegen den "Speicherfresser" Transformer

Um die Revolutionärheit von Nemotron 3 zu verstehen, müssen wir zunächst über Mamba sprechen.

Warum will Nvidia diese relativ "nischendeckende" Architektur in ein Mainstream-Modell einführen?

In der Welt der großen Sprachmodelle (LLM) ist der Transformer der absolute Herrscher, aber er hat einen tödlichen Schwachpunkt: Mit zunehmender Länge der Eingabe steigen die Rechenleistung und der Speicherbedarf quadratisch an.

.

Stellen Sie sich vor, Sie lesen ein Buch. Wenn Sie ein Transformer wären, hätten Sie keine Probleme, die erste Seite zu lesen. Aber beim Lesen der 1000. Seite müssten Sie sich alle Wörter der ersten 999 Seiten im Kopf bewusst machen, um die aktuelle Seite zu verstehen (Attention-Mechanismus). Dies erfordert eine enorme "Gehirnkapazität" (Speicher). Wenn der Kontext 100.000 oder 1 Million Wörter umfasst, wird jeder vorhandene GPU sofort überlastet.

Mamba ist anders. Es basiert auf SSM (State Space Models) und ist im Wesentlichen ein rekurrentes neuronales Netzwerk mit einer starken Kurzzeitgedächtnisleistung. Es liest wie ein Mensch: Die gelesenen Inhalte werden in einen festen Gedächtniszustand (State) "verdaut", ohne dass es immer wieder auf jedes einzelne Wort zurückgreifen muss.

Link zur Studie: https://arxiv.org/pdf/2312.00752

Die Kernvorteile von Mamba:

Lineare Komplexität (O(N)): Unabhängig von der Länge des Buches bleibt der Inferenzaufwand von Mamba fast konstant. Das Lesen von 10.000 oder 1 Million Wörtern erzeugt fast den gleichen Speicherdruck.

Sehr schnelle Inferenz: Da es keine riesigen KVCache (Key-Value-Cache)-Attention-Matrizen berechnen muss, hat Mamba eine sehr hohe Generierungsgeschwindigkeit (Durchsatzleistung).

Potenzial für unendlichen Kontext: Theoretisch kann Mamba sehr lange Sequenzen verarbeiten, ohne den Speicher zu überlasten.