StartseiteArtikel

NVIDIA bringt die nächste Generation von GPUs heraus, um das riesige "Millionen-Token"-Monster voranzutreiben. Mit einer Investition von 100 Millionen Yuan erzielt es einen Gewinn von 5 Milliarden Yuan.

新智元2025-09-11 10:40
CPX wird eine brandneue GPU-Kategorie erschaffen.

Am 9. wurde von NVIDIA das CUDA-GPU Rubin CPX, speziell für KI mit riesigen Kontexten entwickelt, sensationell vorgestellt. Damit wird die einmalige Inferenz großer Modelle in die »Ära der Million Tokens« gebracht. NVIDIA-Gründer und CEO Jensen Huang erklärte, dass die Vera Rubin-Plattform die Grenzen der KI-Berechnung erneut vorstoßen werde, indem sie nicht nur die nächste Generation von Rubin-GPUs bringen würde, sondern auch eine völlig neue Prozessorkategorie namens CPX einführen würde.

Der »Millionen-Token-Monster« ist da!

Gestern (9.) hat NVIDIA einen Coup gespielt und das Rubin CPX vorgestellt, ein brandneues GPU, das speziell für die Inferenz in großen Kontexten entwickelt wurde.

Seine Leistung ist mehr als doppelt so hoch wie die des Vera Rubin NVL144-Platforms und 7,5-mal so hoch wie die des auf Blackwell Ultra basierenden GB300 NVL72 Rack-Systems!

Es verfügt über eine NVFP4-Rechenleistung von 8 EFLOPS pro Rack, 100 TB schnellen Arbeitsspeicher und eine Speicherbandbreite von 1,7 PB/s sowie 128 GB kostengünstigen GDDR7-Grafikspeicher.

Im Vergleich zum NVIDIA GB300 NVL72-System bietet das Rubin CPX dreimal so viel Verarbeitungsleistung für Attention-Mechanismen.

Dieser Leistungsmamut ist auch in Bezug auf die Monetarisierungskapazität nicht zu unterschätzen.

Pro 100 Millionen US-Dollar Investition können bis zu 5 Milliarden US-Dollar an Token-Einnahmen erzielt werden!

Rubin CPX gründet eine neue Prozessorkategorie namens CPX

Das Rubin CPX basiert auf der Rubin-Architektur und ist das erste CUDA-GPU, das speziell für KI mit riesigen Kontexten entwickelt wurde. Es kann Modelle, die über Millionen von Wissensmarkierungen strecken, gleichzeitig inferieren.

Man kann sagen, dass das Rubin CPX ein »Spezialist« ist, der speziell für die Überwindung der Engpässe bei der »langen Kontextverarbeitung« in der KI entwickelt wurde.

Seine Entstehung bringt neue Durchbrüche bei Leistung und Effizienz in Inferenzszenarien im Million-Token-Bereich für die KI.

Unterstützt von der neuen NVIDIA Vera Rubin NVL144 CPX-Plattform arbeitet das Rubin CPX eng mit der NVIDIA Vera CPU und dem Rubin GPU zusammen. Es kann Mehrschritt-Inferenz, dauerhaftes Gedächtnis und langfristigen Kontext unterstützen, was es in der Lage macht, komplexe Aufgaben in Bereichen wie Softwareentwicklung, Videogenerierung und tiefgehender Forschung leichter zu bewältigen.

Das bedeutet auch, dass mit der Unterstützung des Rubin CPX die KI-Codierung von einem einfachen Codegenerierungstool zu einem komplexen System wird, das große Softwareprojekte verstehen und optimieren kann.

Außerdem kann es die Anforderungen von Anwendungen in der Langzeitvideo- und Forschungsbranche erfüllen, die bei Millionen von Tokens eine kontinuierliche Konsistenz und ein Gedächtnis aufrechterhalten müssen.

Diese Anforderungen nähern sich den Grenzen der gegenwärtigen Infrastruktur.

NVIDIA-Gründer und CEO Jensen Huang erklärte, dass die Vera Rubin-Plattform die Grenzen der KI-Berechnung erneut vorstoßen werde und auch eine neue Prozessorkategorie namens CPX einführen würde.

»Genau wie RTX die Grafik und die physikalische KI revolutioniert hat, ist das Rubin CPX das erste CUDA-GPU, das speziell für KI mit riesigen Kontexten entwickelt wurde. Modelle können so die Inferenz über Millionen von Tokens an Wissen auf einmal durchführen.«

Derzeit erkunden Pionierunternehmen in der KI-Branche wie Cursor, Runway und Magic aktiv die neuen Möglichkeiten des Rubin CPX bei der Beschleunigung von Anwendungen.

30- bis 50-facher ROI, Neuausrichtung der Inferenzwirtschaft

Das Rubin CPX kann durch innovative entkoppelte Inferenz einen 30- bis 50-fachen ROI für Unternehmen erzielen und die Inferenzwirtschaft neu definieren.

Die Inferenz großer Modelle besteht hauptsächlich aus zwei Phasen: der Kontext- und der Generierungsphase.

Die Anforderungen an die Infrastruktur in diesen beiden Phasen unterscheiden sich grundlegend.

In der Kontextphase ist die Rechenleistung der limitierende Faktor. Es wird eine hohe Durchsatzleistung benötigt, um die riesigen Eingabedaten aufzunehmen und zu analysieren, um das erste Token als Ausgabe zu erzeugen.

In der Generierungsphase ist die Speicherbandbreite der limitierende Faktor. Es wird eine schnelle Speicherübertragung und eine schnelle Interkonnektion (z. B. NVLink) benötigt, um die Ausgabeleistung pro Token aufrechtzuerhalten.

Die entkoppelte Inferenz ermöglicht die unabhängige Verarbeitung dieser beiden Phasen, wodurch die Rechenleistung und die Speicherressourcen zielgerichteter optimiert werden können, der Durchsatz erhöht, die Latenz verringert und die Gesamtausnutzung der Ressourcen verbessert wird.

Aber die entkoppelte Inferenz bringt auch eine neue Ebene an Komplexität mit sich. Es muss eine genaue Koordination zwischen der Übertragung von KV-Caches mit niedriger Latenz, der Routingstrategie für große Modelle und der effizienten Speicherverwaltung erfolgen.

Dafür ist die NVIDIA Dynamo unerlässlich. Sie spielt als Orchestrierungsebene für die obigen Komponenten eine Schlüsselrolle.

Das Rubin CPX ist ein »Spezialbeschleuniger«, der speziell für die Inferenz von großen Sprachmodellen (insbesondere mit einem Kontext von Millionen von Tokens) entwickelt wurde.

Das Rubin CPX arbeitet zusammen mit der NVIDIA Vera CPU und dem Rubin GPU, das für die Verarbeitung in der Generierungsphase zuständig ist, und bildet so eine vollständige Lösung für hochleistungsfähige entkoppelte Dienste in Langkontextszenarien.

Die Einführung des CPX markiert die neueste Evolution der Infrastruktur für entkoppelte Inferenz und setzt einen neuen Standard für die Inferenzwirtschaft.

In skalierbaren Szenarien kann die NVIDIA Vera Rubin NVL144 CPX-Plattform einen 30- bis 50-fachen Return on Investment (ROI) erzielen.

Das bedeutet, dass eine Kapitalausgabe (CAPEX) von 100 Millionen US-Dollar bis zu 5 Milliarden US-Dollar an Einnahmen generieren kann.

Der Millionen-Token-Monster neu definiert die nächste Generation von KI-Anwendungen

Die Vera Rubin NVL144 CPX-Plattform neu definiert die Möglichkeiten für Unternehmen, die nächste Generation von generativen KI-Anwendungen zu entwickeln.

NVIDIA Vera Rubin NVL144 CPX Rack und Tray, ausgestattet mit Rubin-Kontext-GPU (Rubin CPX), Rubin GPU und Vera CPU

Das Rubin CPX, die NVIDIA Vera CPU und das Rubin GPU sind alle in der neuen NVIDIA Vera Rubin NVL144 CPX-Plattform integriert.

Die NVIDIA Vera Rubin NVL144 CPX-Plattform nutzt die neueste GPU-Architektur und verfügt über eine extrem hohe Rechenleistung und Energieeffizienz. Sie kann basierend auf der MGX-Architektur in Rack-Ebene deployt werden.

1. Steigerung der Rechenleistung

Das NVIDIA MGX Rack-System integriert in einem einzigen Rack 144 Rubin CPX-GPUs, 144 Rubin-GPUs und 36 Vera CPUs. Es kann eine NVFP4-Rechenleistung von 8 EFLOPS bereitstellen und verfügt über 100 TB schnellen Arbeitsspeicher und eine Speicherbandbreite von 1,7 PB/s.

2. Optimierung für die effiziente Verarbeitung langer Sequenzen

Das Rubin CPX ist für die effiziente Verarbeitung langer Sequenzen optimiert und ist der Schlüssel für hochwertige Inferenzanwendungen wie Softwareentwicklung und HD-Videogenerierung.

3. Upgrade des Grafikspeichers

Ein einzelnes Rubin CPX-GPU kann eine NVFP4-Rechenleistung von bis zu 30 Petaflops bereitstellen. Es ist mit 128 GB kostengünstigem GDDR7-Grafikspeicher ausgestattet, um die anspruchsvollsten Kontext-Arbeitslasten zu beschleunigen.

4. Beschleunigung des Attention-Mechanismus

Im Vergleich zum NVIDIA GB300 NVL72-System bietet das Rubin CPX dreimal so viel Verarbeitungsleistung für Attention-Mechanismen. Dadurch wird die Fähigkeit des Modells, längere Kontextsequenzen zu verarbeiten, deutlich verbessert, ohne die Geschwindigkeit zu verringern.

5. Mehrere Formfaktoren

Das Rubin CPX ist in verschiedenen Formfaktoren erhältlich, einschließlich der Vera Rubin NVL144 CPX. Es kann auch mit dem NVIDIA Quantum-X800 InfiniBand-Netzwerk für horizontale Skalierung kombiniert werden.

Es kann auch mit der NVIDIA Spectrum-X™ Ethernet-Netzwerkplattform, die die NVIDIA Spectrum-XGS-Ethernet-Technologie und die NVIDIA ConnectX®-9 SuperNICs™ nutzt, verwendet werden, um eine Massenbereitstellung zu ermöglichen.

Rubin CPX integriert sich in die gesamte NVIDIA KI-Ökosystem

In Bezug auf das Ökosystem wird das Rubin CPX von der gesamten NVIDIA KI-Software-Stack unterstützt, einschließlich:

  • Softwareplattform: NVIDIA AI Enterprise, das NVIDIA NIM™ Microservices sowie AI-Frameworks, -Bibliotheken und -Tools enthält, die auf NVIDIA-akzelerierten Clouds, Rechenzentren und Workstations deployt werden können.
  • Orchestrierung und Modelle: Die NVIDIA Dynamo-Plattform ist für die effiziente Skalierung der KI-Inferenz verantwortlich. Gleichzeitig kann der Prozessor die neuesten Modelle aus der NVIDIA Nemotron™ Multi-Modal-Modellfamilie ausführen.
  • Entwickler-Ökosystem: Basierend auf jahrzehntelanger Innovation erweitert die Rubin-Plattform das enorme NVIDIA-Entwickler-Ökosystem, einschließlich der NVIDIA CUDA-X™-Bibliotheken, einer Community von über 6 Millionen Entwicklern und fast 6.000 CUDA-Anwendungen.

Das NVIDIA Rubin CPX wird voraussichtlich Ende 2026 erhältlich sein.

Seine Einführung wird globalen Entwicklern und Schaffenden stärkere Fähigkeiten eröffnen und die Möglichkeiten für Unternehmen, die nächste Generation von generativen KI-Anwendungen zu entwickeln, neu definieren.

Quellen

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/%20

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference?ncid=so-twit-653111

Dieser Artikel stammt aus dem WeChat-Account »New Intelligence Yuan«. Autor: Yuan Yu. Veröffentlicht von 36Kr mit Genehmigung.