Jensen Huang hat heute eine umfassende Einschätzung für die kommenden zehn Jahre dargelegt.
„Rechnen bedeutet Einnahmen, Watt bedeutet Einnahmen, jeder Token bedeutet Einnahmen!“
Alle obigen Äußerungen stammen aus Huang Renxuns Rede auf der GTC 2026. Der Inhalt kann als das „Zeit ist Geld“ der AI-Zeit bezeichnet werden.
Huang Renxun sagte, dass je mehr Tokens pro Watt erzeugt werden, desto höher die Einnahmen seien.
Er zeigte eine Reihe von Daten. Die Anzahl der Code-Commits auf GitHub hat in den ersten Monaten von 2026 fast verdreifacht. Die 3 Billionen US-Dollar an Gehaltswerten, die von 30 Millionen Softwareentwicklern weltweit geschaffen wurden, erzeugen eine Produktivität von fast 9 Billionen US-Dollar.
Auf dieser GTC-Konferenz brachte Huang Renxun viele neue Dinge mit.
Das wichtigste Produkt ist zweifellos der von NVIDIA und Microsoft gemeinsam entworfene AI-PC. Das zweite ist Vera und seine vollständige Ökosystem für die Agenten-Zeit. Das dritte ist das Open-Source-Großmodell Nemotron 3 Ultra. Das vierte ist die physikalische AI Cosmos 3 sowie der darauf basierende Referenz-Humanoidroboter Isaac.
All diese Dinge zusammen ergeben Huang Renxuns vollständige Einschätzung des Rechenmodells für die nächsten zehn Jahre.
01 Neudefinition des AI-PCs
Huang Renxun sagte, dass die Zusammenarbeit zwischen Microsoft und NVIDIA das Konzept des AI-PCs neu definieren werde.
Huang Renxun zeigte auf der Bühne den RTX Spark.
Der RTX Spark ist ein Laptop mit einem Chip namens N1X, der von NVIDIA und MediaTek gemeinsam entwickelt wurde. Er enthält einen Blackwell RTX GPU mit 6.144 CUDA-Kernen, fünfte Generation Tensor Core und unterstützt FP4-Präzision. Es gibt auch eine maßgeschneiderte 20-Kern-Grace CPU, die über einen NVLink-C2C-Chip verbunden ist. Es verfügt über 128 GB vereinigten Speicher und basiert auf der 3-nm-Prozesstechnologie von TSMC mit 70 Milliarden Transistoren.
Anwendungen wie digitale Biologie, Seismikverarbeitung und Astrophysik können alle auf diesem Gerät laufen. Alle CUDA-verwandten Anwendungen in Physik, Biologie, Genomik, KI und Computergrafik sowie Windows-Anwendungen können ebenfalls ausgeführt werden.
Der größte Unterschied zwischen diesem Computer und einem herkömmlichen Laptop besteht darin, dass er Agenten lokal ausführen kann. Der von Huang Renxun erwähnte Agent ist ein KI-Assistent, der versteht, was Sie sagen, den Bildschirm sehen kann, Dateien lesen kann und Ihnen bei der Arbeit helfen kann. Früher mussten diese KIs an die Cloud angeschlossen werden, um verwendet zu werden. Jetzt können sie direkt auf Ihrem Laptop laufen.
Huang Renxun sagte, dass Sie in den letzten 40 Jahren Computer benutzt haben, indem Sie Anwendungen gestartet, aufgerufen und eingegeben haben. Jetzt brauchen Sie mit dem RTX Spark und Windows nur zu fragen, und der Computer wird die Arbeit für Sie erledigen. Der RTX Spark integriert alle Technologien, die NVIDIA in 30 Jahren gesammelt hat, wie CUDA, RTX und die KI-Plattform, in einem einzigen Chip. Lokale Agenten, fortschrittliche Modelle, kreative Arbeitsabläufe und RTX-Spiele können alle auf einem Laptop ausgeführt werden.
Dies ist der persönliche KI-Computer in Huang Renxuns Händen.
Microsoft hat eine tiefe Plattformoptimierung für den RTX Spark vorgenommen.
Es wurde eine Workload-Konfigurationsprofil-Scheduling implementiert, um den Windows-Scheduler effizienter zu gestalten und die Workloads auf allen 20 Kernen zu verteilen. Egal, ob Sie E-Mails lesen oder lokale Agenten ausführen, um Code zu debuggen, der Windows-Scheduler stellt sicher, dass Sie die beste Leistung und Effizienz von der CPU erhalten.
Sie haben auch das Microsoft Power und Thermal Management Framework aktiviert, um die Leistung und die Leistung zu maximieren, während das Gerät kühl bleibt.
Um bis zu 128 GB Speicher auf dem RTX Spark zu ermöglichen, hat Microsoft die Obergrenze des vom GPU zugänglichen Systemspeichers erhöht, um den verfügbaren Speicher des GPUs auf Hochspeichersystemen zu erhöhen und so größere lokale KI-Modelle laden oder komplexere Projekte rendern zu können.
Sie haben auch die Art und Weise verbessert, wie Windows die Seitengröße des geteilten Speicherbereichs auf einem vereinigten Speichersystem verwaltet, um sicherzustellen, dass bei hohen Workloads größere Speicherseiten verfügbar sind und Entwicklern die Flexibilität geben, die Speicher-Workload-Anforderungen zwischen CPU und GPU zu optimieren.
Microsoft-CEO Satya Nadella sagte, dass ihr Ziel sei, mit Windows unbegrenzte Intelligenz in jedes Haushalt und auf jeden Schreibtisch zu bringen.
Die Open-Source-Agentenprojekte OpenClaw und Hermes Agent haben auf GitHub und OpenRouter Rekorde aufgestellt, aber es ist bisher nicht gelungen, sie in großem Maßstab zu verbreiten, da es nicht möglich war, Agenten sicher und privat auf den Hauptcomputern der Benutzer auszuführen.
NVIDIA und Microsoft haben dieses Problem gelöst. Sie haben neue Windows-Sicherheitsgrundlagen und die NVIDIA OpenShell-Laufzeitumgebung entwickelt, um sicherzustellen, dass Agenten unter vollständiger Kontrolle des Benutzers sicher laufen.
Das neue Windows bietet Identitäts-, Isolierungs-, Richtlinien- und End-to-End-Sicherheitsfunktionen, um Agenten nativ zu erstellen und auszuführen.
Die NVIDIA OpenShell bietet einige benutzerdefinierte Funktionen, wie die Möglichkeit, Benutzern zu ermöglichen, zu beschränken, was Agenten tun können und was nicht, Anfragen intelligent an lokale Modelle zu leiten und persönliche Informationen in Anfragen an Cloud-Modelle zu verbergen.
Hermes Agent und OpenClaw verwenden diese Sicherheits- und Privatsphäre-Schicht in ihren neuen Windows-Anwendungen. Diese Anwendungen ermöglichen es Benutzern, sicher und einfach auf Geräte-Agenten zuzugreifen. Diese Agenten können Aufgaben in Windows-Anwendungen ausführen, Arbeitsabläufe zwischen Anwendungen ableiten, Bilder und Videos generieren, Plugins und Anwendungs-Code schreiben und lokale Dateien semantisch durchsuchen.
Huang Renxun demonstrierte live, wie ein lokal auf dem RTX Spark laufender Agent ihm bei der Hausplanung half. Der Agent läuft in der Open Shell-Sandbox und ist mit dem Hermes-Orchestrierungssystem und der Cloud-Claude Sonnet verbunden.
Er wählt den Standort, liest Konzeptskizzen, Stil-Moodboards, textuelle Anforderungen und Entwurfsabsichten. Der Agent verwendet die Tools auf dem Laptop, öffnet Rhino, um das Gelände zu modellieren, formt das Gelände, die Rückzugslinien und das Gebäudegehäuse, schlägt eine Gebäudeform vor und optimiert sie hinsichtlich Kosten, Komfort und Qualität.
Nachdem die Form festgelegt ist, generiert der Agent die innere Layoutung, die Wände und die Verkehrswege, und die Räume werden geformt. Er passt ständig an, platziert automatisch Türen, Fenster und Strukturelemente und erkennt und korrigiert Fehler selbst. Nach der Genehmigung exportiert der Agent das Modell aus Rhino und importiert es in Blender, wobei die Materialien und Objekteigenschaften vollständig übertragen werden.
Er stellt die Materialien ein, wählt die Kameraperspektive und rendert das Haus in Blender. Der Agent verwendet das Flux-Modell, um mehrere Perspektiven und Beleuchtungsbedingungen zu generieren.
Der gesamte Prozess wird vollständig vom Agenten selbst durchgeführt.
Dies ist der „neue PC“, den Huang Renxun meint. Früher haben Sie Computer benutzt, indem Sie Software geöffnet, die Maus geklickt und die Tastatur gedrückt haben. Jetzt können Sie dem Agenten einfach sagen, was Sie tun möchten, und er wird die verschiedenen Softwareprogramme selbst bedienen, um die Aufgabe zu erledigen.
Der RTX Spark ist nicht nur für Agenten entwickelt, sondern auch ein vollwertiger kreativer und Spielecomputer.
Sie können auf ihm über OptiX und DLSS riesige 90-GB-3D-Szenen rendern, mit dem Blackwell-Decoder 12K-4:2:2-Videos bearbeiten, große Sprachmodelle mit 120 Milliarden Parametern und 1 Million Token-Kontext ausführen, AAA-Spiele mit einer Auflösung von 1440p und über 100 Bildern pro Sekunde spielen und Raytracing, DLSS und Reflex nutzen.
Der RTX Spark wird auch neue RTX-Fähigkeiten unterstützen, einschließlich DLSS 4.5-Ray Reconstruction mit einem zweiten Generation Transformer-Modell, das in Blender 5.3 und einigen Dutzend Spielen erscheinen wird. Es gibt auch RTX Video 4x Frame Generation, das in ComfyUI erscheinen wird.
Der RTX Spark ist ein Laptop. Huang Renxun kündigte jedoch auch die Desktop- und Workstation-Version DGX Spark an.
Mit 768 GB Speicher kann es riesige Modelle mit Billionen von Parametern ausführen, hat eine Rechenleistung von 20 Petaflops und eine Speicherbandbreite von 8 TB pro Sekunde und kann auf dem Schreibtisch platziert werden. Wenn Sie ein Entwickler von großen Sprachmodellen oder Agenten sind, können Sie Modelle lokal trainieren und testen und sie erst bei der Bereitstellung in die Cloud übertragen.
Huang Renxun sagte, denken Sie an das Telefon vor 15 bis 20 Jahren. Heute ist das Telefonieren nicht die am häufigsten verwendete Funktion des Handys. Die Bedeutung des Handys hat sich völlig verändert. Ähnliche Veränderungen werden auch beim PC auftreten. In zehn Jahren wird der PC nicht nur ein Werkzeug sein, um Software zu öffnen und die Maus zu klicken.
ASUS, Dell, HP, Lenovo, Microsoft Surface und MSI werden im Herbst dieses Jahres ultra-dünne Windows-Laptops und kompakte Desktop-PCs mit RTX Spark-Antrieb auf den Markt bringen, mit all-täglichem Batteriebetrieb und hochwertigen Displays. Die Modelle von Acer und GIGABYTE folgen später. Huang Renxun nannte keine genauen Preise.
02 Vera Rubin und die KI-Fabrik
Anschließend kündigte Huang Renxun an, dass Vera Rubin jetzt vollständig in die Produktion gegangen ist.
Vera Rubin ist ein fünfrahmiges KI-Supercomputersystem, das speziell für die Ausführung von Agenten entwickelt wurde.
Der erste Typ ist der Vera Rubin NVL72, der für die Verständnis von Prompts, die Verarbeitung von Kontext, die Inferenz und die Planung verantwortlich ist. Dies ist das „Gehirn“ des Agenten.
Der zweite Typ ist der Vera CPU-Rack, in dem 256 Vera CPUs in einem einzelnen flüssigkeitsgekühlten Rack untergebracht sind. Er ist für die Koordination von Modellen, die Verwaltung von Speicher und den Aufruf von Tools verantwortlich.
Der dritte Typ ist der Groq 3 LPX-Rack, mit 256 Groq 3 LPU verteilt auf 16 Träger, mit einer SRAM-Bandbreite von 40 PB pro Sekunde, der eine ultraniedrige Latenz bei der Token-Generierung bietet. Der NVL72 ist für hohe Durchsatzraten verantwortlich, während der Groq LPU für niedrige Latenz sorgt.
Der vierte Typ ist der Vera BlueField-4 STX-Speicherrack, der der Ort ist, an dem der Agent seine Erinnerungen speichert und für die Speicherverarbeitung, die Beschleunigung und die Sicherheitsfunktionen auf Chip-Ebene verantwortlich ist.
Der fünfte Typ ist das NVIDIA Spectrum-X Ethernet CPO-Netzwerkrack, ausgestattet mit einem Ethernet-Switch mit gemeinsam verpackter Optiktechnologie, 200 Gb/s SerDes und einer Chip-Ebene-Verpackung und einem Hochleistungs- Phosphorindium-Lasermodul in Zusammenarbeit mit TSMC.
Vera Rubin besteht aus sieben neuen Chips. Es basiert auf der 3-nm-Prozesstechnologie von TSMC und der CoWoS-L-Verpackungstechnologie. Der HBM-Speicher stammt von Micron, SK hynix und Samsung. Eine Vera Rubin-Rechnungsplatine enthält Billionen von Transistoren und über 18.000 Komponenten.
Das gesamte Rack enthält 18 Rechentrays, 9 heißwechselbare NVLink-Switchtrays, ein effizientes flüssigkeitsgekühltes Manifold und einen Sammelleiter. Der flüssigkeitsgekühlte Sammelleiter kann einen Strom von über 5.000 Ampere tragen, was dem Strom entspricht, der von 20 Elektromobilen bei Vollgas benötigt wird. Insgesamt bestehen 1,3 Millionen Komponenten aus dem Design des dritten Generation MGX-Racks.
Im Vergleich zur vorherigen Generation Grace Blackwell hat Vera Rubin eine zehnfache Steigerung der Durchsatzleistung bei der Verarbeitung von Agentenaufgaben.
Huang Renxun sagte, dass die von ihnen für Vera Rubin geschaffene Lieferkette doppelt so groß ist wie die für Grace Blackwell.
Früher hat es zwei Stunden gedauert, ein Grace Blackwell-Rack zusammenzubauen, jetzt braucht Vera Rubin nur fünf Minuten. Der Grund liegt in der neuen Gestaltung. Früher gab es viele Kabel und Schläuche im Rack, jetzt werden die beiden Seiten direkt über eine PCB-Mittelplatte verbunden, so dass keine Kabel, Schläuche und Lüfter mehr benötigt werden. Alles ist flüssigkeitsgekühlt, modular gestaltet und heißwechselbar.
Huang Renxun sagte, dass bei der Entwicklung von Hopper die wichtigste Aufgabe die Vorhersage war. Bei Grace Blackwell lag der Schwerpunkt auf der Inferenz.
„Viele Leute sagen, dass die Inferenz einfach ist, aber die Inferenz bedeutet Geld.“
Modelle werden immer komplexer, und es ist schwierig, die Inferenz bei hoher Reaktionsgeschwindigkeit, schneller Interaktion und hohem Durchsatz gleichzeitig durchzuführen. Dies ist die Bedeutung von NVLink 72.
Huang Renxun sagte, dass die Token-Kosten von NVIDIA heute um eine Größenordnung niedriger sind als die der Konkurrenz, weil sie eine kooperative Entwicklung vorgenommen haben und das Rechenmodell