StartseiteArtikel

Heute Nacht gibt es keine Grafikkarten. Huang (Jensen Huang) löst die Rubin-Ära aus. Sechs Kerne treiben die Rechenleistung um das Fünffache hoch.

新智元2026-01-06 17:38
In den nächsten fünf Jahren werden 3 bis 4 Billionen US-Dollar in die KI-Infrastruktur investiert.

Gerade auf der CES 2026 trat Huang mit der Supercomputer-Architektur Vera Rubin auf die Weltbühne! Die Inferenzleistung von Rubin ist um das Fünffache höher als die von Blackwell, die Trainingsleistung um das 3,5-fache gesteigert und die Kosten um das Zehnfache gesenkt. Sie ist bereits in Massenproduktion und wird im zweiten Halbjahr 2026 auf den Markt kommen. In der vergangenen Nacht ohne neue Grafikkarte erklärte Huang, dass er sich vollständig auf KI konzentriert!

Mit einem lauten Knall tauchte die neue Version des "Huang in Lederjacke" auf der Bühne auf.

Der aufregendste Moment in der CES-Rede war der Auftakt der neuen Chip-Architektur von NVIDIA - Vera Rubin!

Wird die globale KI-Rechenleistung knapp? Huang antwortete gewaltig: Vera Rubin ist bereits in vollem Umfang in Produktion.

Dies ist ein neues Rechenleistungskonzern und eine deutliche Überlegenheit gegenüber der Vorgängerarchitektur Blackwell -

Die Kosten für Inferenz-Tokens sind um das Zehnfache gesunken, und die Rechenleistung hat um das Fünffache zugenommen.

Selbst die Anzahl der benötigten GPUs für das Training von MoE-Modellen ist um das Vierfache reduziert.

Einst beendete Blackwell Hopper; heute begrub Rubin Blackwell selbst.

Während der fast zweistündigen Rede erwähnte Huang die folgenden Schwerpunkte -

Präsentation der nächsten Rubin-Plattform: Sechs Chips, zehnfache Inferenzleistung

End-to-End-Modell für autonomes Fahren: AlphaMayo kann denken und selbstständig schließen, und das Fahrzeug kann ganz ohne menschliche Übernahme fahren.

Open-Source des gesamten Physikalischen KI-Pakets: Basis-Modelle, Frameworks

Spieler schlafen die Nacht nicht aus: CES 2026, keine Grafikkarten

Was ist mit den Spielern?

Entschuldigung, diesmal gibt es wirklich keine neuen Grafikkarten.

Eine Ankündigung von NVIDIA auf X hat die letzten Träume der "PC-Bauer" zerschmettert: Es werden keine neuen GPUs auf der CES 2026 vorgestellt.

Dies bedeutet, dass die Tradition von NVIDIA, seit 2021 jedes Jahr neue Hardware auf der CES vorzustellen, damit endet.

Die seit langem geäußerte Vermutung über die RTX 50 Super-Serie, die an der "Produktionshölle" der GDDR7-Speicher scheitert, ist höchstwahrscheinlich im Keim erstickt.

Rubin taucht gewaltig auf, 6 Chips, zehnfache Inferenz, KI-Supercomputer werden zur Fabrik

Letzten Oktober hat Huang geschätzt, dass in den nächsten fünf Jahren 3 bis 4 Billionen US-Dollar in die KI-Infrastruktur fließen werden.

Die Massenproduktion von Vera Rubin kommt genau zur rechten Zeit.

Wenn Blackwell die Grenzen der Einzelkartenleistung brach, löst Rubin das Problem der Systemskalierbarkeit.

Von nun an wird die Rechenleistung so billig wie Strom sein, und der große Ausbruch der KI ist in greifbarer Nähe!

2024 wurde die Vera Rubin-Architektur erstmals vorgestellt.

Nach zwei Jahren wird sie endlich in Produktion gehen!

Die Blackwell-Architektur wird ab sofort aus dem Markt verschwinden.

An der Veranstaltungsstelle sagte Huang: Die Rechenleistung, die von KI benötigt wird, steigt rasant. Was tun? Keine Sorge, Vera Rubin wird die grundlegenden Herausforderungen lösen, denen wir gegenüberstehen!

Diese Plattform, die für die Masseninferenz von Modellen mit Billionen von Parametern entwickelt wurde, wird die Rechenleistung kostengünstig, skalierbar und industriell herstellbar machen.

Die Rubin-Architektur ist nach der Astronomin Vera Florence Cooper Rubin benannt.

Man kann sagen, dass Rubin das erste Mal von NVIDIA ist, dass CPU, GPU, Netzwerk, Speicher und Sicherheit als ein ganzes System entworfen wurden.

Der Kerngedanke ist: Anstatt "Karten zu stapeln", wird das gesamte Rechenzentrum zu einem KI-Supercomputer.

Die gesamte Rubin-Plattform besteht aus diesen 6 Schlüsselkomponenten.

Darunter ist der Rubin GPU der Kern der gesamten Plattform. Er ist mit der dritten Generation des Transformer-Engines ausgestattet und bietet 50 PFLOPS an NVFP4-Rechenleistung für KI-Inferenz.

Die Fünffachleistung gegenüber dem Blackwell GPU liegt daran, dass der NVFP4-Tensor-Kern die Rechenmerkmale der Transformer-Schichten analysieren und die Datenpräzision und den Rechenpfad dynamisch anpassen kann.

Darüber hinaus führt diese Architektur einen neuen Vera CPU ein, der speziell für die Inferenz von Agenten entwickelt wurde.

Er verwendet 88 selbstentwickelte Olympus-Kerne von NVIDIA, ist vollständig kompatibel mit Armv9.2 und verfügt über eine ultraschnelle NVLink-C2C-Verbindung, die die volle Leistung von 176 Threads ermöglicht. Die I/O-Bandbreite und der Energieeffizienzgrad verdoppeln sich direkt.

Wenn wir einen neuen Workflow in Agentic AI oder langfristigen Aufgaben aktivieren, wird der KV-Cache stark belastet.

Um die Speicher- und Verbindungsschranken zu lösen, hat die Rubin-Architektur das Bluefield- und NVLink-System speziell verbessert. Es wird über externe Mittel mit den Rechengeräten verbunden, um die Gesamtgröße des Speicherpools effizienter zu erweitern.

Der BlueField-4 DPU ist eine Datenverarbeitungseinheit, die Netzwerk-, Speicher- und Sicherheitsaufgaben abwälzen kann und das Kontextgedächtnisystem der KI verwalten kann.

In NVLink 6 kann ein einzelner Chip eine Austauschkapazität von 400 Gb pro Sekunde bieten. Jede GPU bietet eine Bandbreite von 3,6 TB/s, und der Rubin NVL72-Rack bietet 260 TB/s, was mehr als die gesamte Internet-Bandbreite ist.

Durch die Bandbreite von 3,6 TB/s und die Rechenleistung im Netzwerk kann es 72 GPUs in Rubin wie einen Super-GPU zusammenarbeiten lassen und die Inferenzkosten direkt auf 1/7 reduzieren.

An der Veranstaltung hat Huang uns die Palette von Vera Rubin gezeigt. Auf der kleinen Palette sind 2 Vera CPU, 4 Rubin GPU, 1 BlueField-4 DPU und 8 ConnectX-9 Netzwerkkarten integriert, und die Rechenleistung der gesamten Recheneinheit erreicht 100 PetaFLOPS.

Das Ziel von Rubin ist es, die Trainingskosten von MoE- und Billionen-Parameter-Modellen zu senken. Hat es dies erreicht? Offensichtlich sind die Ergebnisse beeindruckend.

Trainings- und Inferenz-Effizienz steigen gewaltig

Die Testergebnisse zeigen, dass die Trainingsgeschwindigkeit des Rubin-Architekturmodells direkt das 3,5-fache (35 petaflops) der Vorgänger-Blackwell-Architektur erreicht, und die Geschwindigkeit der Inferenzaufgaben ist das Fünffache, bis zu 50 petaflops!

Zugleich wird die HBM4-Speicherbandbreite auf 22 TB/s erhöht, das 2,8-fache, und die NVLink-Verbindungsbandbreite einer einzelnen GPU verdoppelt sich auf 3,6 TB/s.

Bei der Supergroßskaligen MoE-Training kann die Anzahl der benötigten GPUs im Vergleich zu Blackwell auf 1/4 reduziert werden, und der Gesamtenergieverbrauch sinkt deutlich.

Hinter diesem Erfolg stehen drei Helden.

NVLink 6 erhöht die Interkonnektivitätsbandbreite zwischen den GPUs erneut stark, so dass das Mehrkarten-Training nicht mehr durch die Kommunikation verlangsamt wird; die kooperative Planung von Vera CPU und Rubin GPU kann die Leerlaufzeit des "GPU wartet auf Daten" reduzieren; und die tiefe Kooperation zwischen ConnectX-9 und Spectrum-6 stellt sicher, dass das Training von Großmodellen nicht mehr durch die Clustergröße begrenzt wird.