Jensen Huang schnappt sich den Hummer: NVIDIA's neue Waffe bietet 10-fache Rechenleistung, OpenClaw ist frei.
Um 2 Uhr morgens Beijing-Zeit hat die NVIDIA GTC-Konferenz in San Jose, Kalifornien, offiziell begonnen. Dieses Mal wird der Keynote sicherlich von den CEOs verschiedener Unternehmen immer wieder zitiert werden.
„Wir haben die Computation neu definiert, ähnlich wie die Revolution der persönlichen Computer und die Internetrevolution. Wir befinden uns jetzt am Anfang einer ganz neuen Plattformumwälzung.“ sagte Jensen Huang, Mitbegründer und CEO von NVIDIA.
Im Oktober letzten Jahres sagte Jensen Huang noch, dass er voraussage, dass die weltweiten Unternehmen in fünf Geschäftsquartalen bis Ende 2026 insgesamt 500 Milliarden US-Dollar in die Blackwell- und Rubin-Systeme investieren würden. Jetzt sagt er, dass dieser Markt zwischen 2025 und 2027 auf 1 Billion US-Dollar anwachsen wird, wobei 60 % des Geschäfts von hyperskaligen Cloud-Computing-Systemen stammen werden.
Die Anzahl hat sich verdoppelt, weil die KI an den „Inflektionspunkt der Inferenz“ (The inference inflection) gelangt ist. Wenn man sagt, dass die KI zuvor noch im Labor „wild trainiert“ wurde, dann ist sie jetzt in die Phase der „Inferenz und Generierung“ eingetreten. Der Bedarf an Rechenleistung hat nicht sein Maximum erreicht, sondern gerade erst begonnen zu explodieren.
„Ist das nun vernünftig?“ Die meiste Zeit des restlichen Keynotes diskutierte Jensen Huang über diese Frage.
Serienproduktion der neuen Generation Vera Rubin, ein Chip, den die Welt noch nie gesehen hat
Das neue Produkt dieses Jahres ist nicht mehr nur ein einzelner Chip, sondern ein riesiges und komplexes KI-Rechenleistungssystem.
Jensen Huang sagte, dass die NVIDIA NVL72 basierend auf der neuen Vera Rubin-Architektur ein „großer Wetteinsatz“ sei. Bei den Inferenzaufgaben der KI stelle es die größte Herausforderung dar, die Effizienz auf das Maximum zu steigern. Mit der Hilfe der Partner habe die Anstrengung von NVIDIA ihre Belohnung gefunden.
Die Token-Leistung pro Watt der NVL72-Architektur hat sich um das 50-fache verbessert, und die Geschwindigkeit hat sich weit über das hinaus verbessert, was das Moore'sche Gesetz vorhersagt.
Dies ist der „Token-König“.
Basierend auf der Steigerung der Rechenleistung und der Entwicklung der KI-Technologie war das Rechenzentrum früher ein Ort zum Speichern von Dateien, jetzt ist es jedoch eine Fabrik zur Generierung von Tokens. Jensen Huang stellte fest, dass die Inferenz die Arbeitslast sei, und die Tokens seien das neue Gut.
Bei der Inferenz der KI werden komplexere Inferenzen und niedrigere Latenzzeiten die Herausforderungen sein, die die Rechenleistung lösen muss. Höhere Effizienz bedeutet auch mehr Gewinn für die Unternehmen.
Die Vera Rubin NVL72 ist ein „Motor, der die Ära der Agenten-KI mit starker Kraft antreibt“. Jensen Huang zeigte auf der Bühne das gesamte Vera Rubin-System, ein riesiges und komplexes System, das sieben neue Chips enthält und darauf abzielt, die weltweit größte KI-Fabrik zu schaffen. Es ist für alle Phasen der KI optimiert, von der Vor-Trainingsphase, der Nach-Trainingsphase und der Testphase bis zur Inferenz von Agenten.
NVIDIA hat die Details der Vera Rubin-Plattform gezeigt, einschließlich der Vera CPU, der Rubin GPU, des NVLink 6-Switches, der NVIDIA ConnectX 9 Super-Netzwerkkarte, des BlueField4 DPU und des Spectrum-6 Ethernet-Switches sowie des neu integrierten Groq 3 LPU.
Genauer gesagt, auf dem Vera Rubin NVL72-Rack sind 72 Rubin GPUs und 36 Vera CPUs integriert, die über NVLink 6 verbunden sind und mit ConnectX-9 SuperNIC und BlueField-4 DPU ausgestattet sind. Die Vera Rubin NVL72 hat eine bahnbrechende Effizienz erreicht – im Vergleich zur NVIDIA Blackwell-Plattform kann die letztere große Hybrid-Expert-Modelle mit nur einem Viertel der Anzahl an GPUs trainieren, die Inferenzdurchsatz pro Watt ist um das 10-fache verbessert, und die Kosten pro Token sind nur ein Zehntel.
Die NVL72 ist speziell für hyperskalige KI-Fabriken entwickelt und kann nahtlos mit Quantum-X800 InfiniBand und Spectrum-X Ethernet skaliert werden, um so in großen GPU-Clustern eine hohe Auslastung zu gewährleisten und gleichzeitig die Trainingszeit zu verkürzen und die Gesamtbetriebskosten zu senken.
Gibt es noch größere Überraschungen? Ja, Bruder, es gibt. Es ist die „NVIDIA Vera Rubin Ultra NVL576“, die durch die Einführung einer brandneuen zweischichtigen, voll vernetzten NVLink-Topologie es den Entwicklern ermöglicht, das System vertikal auf bis zu 576 GPUs zu skalieren.
Die Vera Rubin Ultra NVL576 verbindet acht unabhängige MGX NVL-Racks miteinander, wobei jedes Rack mit 72 Rubin Ultra GPUs ausgestattet ist. Alle Racks bilden durch Kupferkabel-Verbindungen und direkte Lichtwellenleiter-Verbindungen gemeinsam ein einheitliches 576-GPU-NVLink-Domänen.
Dieses System wird auf der Grundlage der gleichen MGX-Rack-Ebene-Oekosystem aufgebaut, was die schnellste Serienproduktion ermöglichen kann.
Um diese großangelegte NVLink-Topologie über mehrere Racks hinweg zu validieren, hat NVIDIA intern ein funktionsfähiges Prototypensystem namens Polyphe auf Basis des GB200 aufgebaut, wie in der folgenden Abbildung gezeigt:
Naturgemäß wird auch die neueste Rechenleistung von Vera Rubin in den Weltraum deployiert.
Jensen Huang kündigte an, dass NVIDIA ein neues Chip/Computer-System namens Nvidia Vera Rubin Space-1 für Orbitalrechenzentren entwickelt. „Im Weltraum gibt es keine Wärmeleitung, keine Konvektion, nur Strahlung. Wir müssen einen Weg finden, diese Systeme im Weltraum zu kühlen, aber wir haben viele hervorragende Ingenieure, die sich mit diesem Problem befassen.“
NVIDIA sagte, dass im Vergleich zur vorherigen Architektur die Implementierungsgeschwindigkeit von Vera Rubin deutlich beschleunigt wurde und es jetzt bereits auf Microsoft Azure deployiert wird. Mit der Einführung von Vera Rubin ist der Wendepunkt für KI-Agenten erreicht, und die bisher größte KI-Infrastruktur wird bald aufgebaut.
Neuer KI-Inferenz-Chip LPU
Die starken Fähigkeiten von Vera Rubin sind auf den LPU (Language Processing Unit, Sprachverarbeitungseinheit) zurückzuführen.
Im Dezember letzten Jahres hat NVIDIA einen strategischen Deal mit dem KI-Inferenz-Chip-Unternehmen Groq abgeschlossen und dafür rund 20 Milliarden US-Dollar ausgegeben. Dadurch hat NVIDIA die Lizenz für die Groq-Inferenztechnologie erhalten, einige Chip-Assets erworben und gleichzeitig die Kernmitglieder des Teams aufgenommen, einschließlich des Gründers Jonathan Ross und des Präsidenten Sunny Madra.
Der Wert von Groq liegt darin, dass durch den speziell optimierten Inferenzpipeline des LPU in Zusammenarbeit mit der GPU die Engpässe von reinen GPU-KI-Servern bei der Inferenz mit niedriger Latenz, der Token-Decodierungseffizienz und dem Energieverbrauch überwunden werden können.
Auf dieser GTC-Konferenz markiert die Veröffentlichung der NVIDIA Groq 3 LPX einen wichtigen Meilenstein im Bereich der beschleunigten Computation.
Die Inferenz von großen Modellen ist seit langem mit einem Kernkonflikt konfrontiert: Niedrige Latenz und hoher Durchsatz sind oft schwer miteinander vereinbar. Die Groq LPX-Architektur arbeitet jedoch zusammen mit der Vera Rubin GPU und ist speziell für die niedrige Latenz und die Inferenz mit sehr langen Kontexten, die von Agentensystemen benötigt werden, optimiert.
In dieser Architektur kann der Inferenzdurchsatz pro Megawatt um bis zu 35-fach verbessert werden, und es kann für Modelle mit Billionen von Parametern ein Umsatzpotential von bis zu 10-fach geschaffen werden.
Höherer Durchsatz pro Watt und Leistung auf Token-Ebene werden eine neue Inferenzebene eröffnen, die die Inferenz von ultra-hochwertigen Modellen mit Billionen von Parametern und Millionen von Kontexten möglich machen und für alle KI-Dienstleister einen größeren Geschäftsraum schaffen.
Beim Design verwendet der LPX-Rack eine vollständige Flüssigkeitskühlung und basiert auf der MGX-Infrastruktur. Er kann nahtlos in die nächste Generation von Vera Rubin KI-Fabriken integriert werden.
Zugleich enthält der LPX-Rack 256 LPU-Prozessoren, die 128 GB SRAM auf dem Chip und eine vertikale Interkonnektivitätsbandbreite von 640 TB/s bieten.
Bei der Massenimplementierung können viele LPU zusammenarbeiten und wie ein riesiger einzelner Prozessor funktionieren, um eine schnelle und deterministische Inferenzbeschleunigung zu erreichen.
Wenn er zusammen mit dem Vera Rubin NVL72-System deployiert wird, werden die Rubin GPU und der LPU die Ausgabe von jedem Token jeder Schicht des KI-Modells gemeinsam berechnen, was die Decodierungsleistung deutlich verbessert.
Die LPX-Architektur ist für Modelle mit Billionen von Parametern und Millionen von Token-Kontexten optimiert und erreicht durch die gemeinsame Entwicklung mit Vera Rubin das beste Gleichgewicht zwischen Energieverbrauch, Speicher und Rechenleistung.
Derzeit wird der LPU von Samsung hergestellt. Die nächste Generation könnte in Zukunft von TSMC hergestellt werden. Darüber hinaus könnte auch in zukünftigen GPUs (Feynman-Architektur) der Groq-Prozessor integriert werden, was möglicherweise die Leistung verbessern und die Kosten senken wird.
Die Nvidia Groq 3 LPX wird voraussichtlich