Im Kampf um die CPU und den PC hat Jensen Huang in Taipeh eine gewaltige Wirkung erzielt. Intel und AMD sollten sich Sorgen machen.
Gerade jetzt trat Jensen Huang in seiner markanten Lederjacke erneut auf der NVIDIA GTC Taipei 2026 auf.
Mit seinem ersten Satz eröffnete er die Veranstaltung: "Vor zwei Jahren, als ich hier war, begann ich mit Ihnen über die nächste Welle der KI zu sprechen. Heute kann ich Ihnen sagen, dass die Agenten-KI hier ist, die nützliche KI ist hier (Agentic AI has arrived. That useful AI has arrived.)."
Bei der NVIDIA GTC Taipei 2026 nannte Jensen Huang sechs Schwerpunkte:
Erstens, die Token-Ökonomie. Tokens sind jetzt die Einheit des Gewinns. Günstige Chips bedeuten nicht, dass Sie gewinnen, und teure Chips bedeuten nicht, dass Sie verlieren.
Zweitens, die fünf Kernkomponenten der Agenten-Architektur: Modell (Model), Harness, Werkzeuge (Tools), Fähigkeiten (Skills) und Laufzeitkomponente (Runtime).
Drittens, die Vera Rubin befindet sich jetzt in voller Produktion und die Lieferungen beginnen im Herbst.
Viertens, die Veröffentlichung der CPU Vera für die Agenten-Ära; im Vergleich zu x86-CPUs ist die Aufgabenabwicklung um das 1,8-fache schneller.
Fünftens, die Veröffentlichung des Superchips RTX Spark für PCs. Jensen Huang sagte: "Alles, was wir in 30 Jahren gelernt haben, steckt in diesem einen Chip."
Sechstens, der Chipentwurf tritt in die Agenten-Ära ein. Zusammen mit Cadence, Siemens, Synopsys und anderen wird ein autonomer KI-Ingenieur aufgebaut.
Token-Ökonomie: Je mehr man kauft, desto mehr gewinnt man
Tokens sind heute das heißeste Wort auf den Lippen aller Technologie-Experten in Silicon Valley, Taiwan (China) und Shenzhen. Jensen Huang sagte: "Tokens sind jetzt die Einheit des Gewinns. Jeder Token ist Einnahme. KI-Unternehmen wollen mehr Tokens aufbauen und mehr KI-Fabriken errichten."
Ein AI-Fabrikprojekt mit einer Leistung von einem Gigawatt kostet anfänglich 20 bis 30 Milliarden US-Dollar. Bald wird es 60 Milliarden und 80 Milliarden. Pro Gigawatt eine Milliarde US-Dollar. Weltweite Technologiekonzerne bauen wild an KI-Infrastrukturen, und die Computerhersteller in Taiwan (China) sind derzeit extrem beschäftigt. Jensen Huang sagte vor Ort an die Branche: "Ihr seid alle so beschäftigt, die Unternehmen (in Taiwan) machen es gut." Hinter diesem Satz verbirgt sich die Euphorie der gesamten Halbleiterversorgungsindustrie.
Das ist die Token-Ökonomie. In der traditionellen IT-Zeit war der Kauf von Servern eine Kostenstelle und die Berechnung ein Verbrauch. In der KI-Zeit ist der Kauf von GPUs eine Investition und die Berechnung eine Einnahme. Jensen Huang zog eine klare Linie: Günstige Chips bedeuten nicht, dass Sie gewinnen, und teure Chips bedeuten nicht, dass Sie verlieren. Die Kosten für die Wahl der falschen Architektur waren noch nie so hoch. Wenn die Durchsatzleistung pro Watt Ihrer KI-Fabrik nicht hoch genug ist, verlieren Sie umso mehr, je mehr Sie kaufen. Wenn die Durchsatzleistung pro Watt hoch genug ist, gewinnen Sie umso mehr, je mehr Sie kaufen.
Vor zwei Jahren sagte Jensen Huang, dass die nächste Welle die Agenten-KI sei. Heute sagt er: "Die autonome KI ist hier, die nützliche KI ist hier."
Jensen Huang gab eine Reihe von Daten an: Die Anzahl der GitHub-Einreichungen stieg von 300 Millionen im Jahr 2023 auf 500 Millionen im Jahr 2026. In zwei Jahren fast verdreifacht. Weltweit 30 Millionen Softwareentwickler schaffen mit einem Gehalt von 3 Billionen US-Dollar eine Produktivität von 9 Billionen US-Dollar.
Jensen Huang widersprach der Aussage, dass KI Arbeitsplätze eliminieren würde: "Manche sagen, dass KI Programmierer arbeitslos machen würde. Das ist völliger Unsinn. Die Anzahl der Ingenieure nimmt zu. Weil jeder Ingenieur dreimal so viel produzieren kann, wollen die Unternehmen natürlich mehr anstellen." Der Wert der KI liegt nicht in der Substitution, sondern in der Verstärkung. Sie lässt die Produktivität jedes Entwicklers und jedes Unternehmens exponentiell wachsen. Wenn jeder Softwareingenieur dreimal so viel Wert schaffen kann, hat das Unternehmen keinen Grund, die Einstellungen zu reduzieren, sondern wird eher mehr anstellen. Das ist die Zukunft, die Jensen Huang sieht: Eine Produktivitätsrevolution findet statt, und diese Revolution verläuft schneller als jeder erwartet hat.
Agenten-Architektur: Fünf Kernkomponenten
In den letzten vierzig Jahren hat sich das Arbeitsmodell von Computern nicht geändert: Man startet eine Anwendung, klickt und gibt Eingaben ein und wartet auf das Ergebnis. In der Agenten-Ära ist es völlig anders. Der Benutzer muss nur seine Absicht beschreiben, und die KI generiert automatisch Code oder verwendet Werkzeuge und erzeugt die erforderlichen Ausgaben.
In der traditionellen Berechnung ist Software ein binäres Paket, das innerhalb des Betriebssystems läuft und durch die Planung und Beschränkungen des Betriebssystems eingeschränkt ist. Das Berechnungsmodell von Agenten ist heterogen verteilt - Modell, Harness, Werkzeuge, Fähigkeiten und Laufzeit sind an verschiedenen Stellen im Rechenzentrum verteilt und werden von der CPU koordiniert.
Jensen Huang hat die fünf Kernkomponenten von Agenten detailliert aufgedeckt:
Jensen Huang stellte klar: "This agent consists of model, harness, tools and skills, and a runtime."
Modell (Model): Fungiert als "Gehirn" und ist für das Verstehen, Beobachten, Schließen und Planen verantwortlich. Große Sprachmodelle integrieren die Fähigkeit zur synchronen Transformation und können heute hervorragend Denkaufgaben bewältigen.
Harness: Das "Betriebssystem", das alles verbindet. Bei jeder Kontextverarbeitung leitet es Informationen präzise, versteht, was passiert, und koordiniert die Zusammenarbeit der Komponenten. Die Unterscheidung zwischen Arbeitsgedächtnis und Langzeitgedächtnis ist hier von entscheidender Bedeutung.
Werkzeuge (Tools): Dies können Spreadsheets, Webbrowser, Datenverarbeitungs-Engines, Datenbank-Engines, C-Compiler, Python-Interpreter, JavaScript-Engines oder sogar Beschleunigungsberechnungsbibliotheken sein. Jedes Mal, wenn ein Agent Werkzeuge verwendet, wird die CPU aufgerufen, um diese Anfragen zu verarbeiten.
Fähigkeiten (Skills): Dies ist der von Jensen Huang besonders betonte Durchbruch. Fähigkeiten sind im Wesentlichen Anleitungen für die Verwendung von Werkzeugen. Die KI liest sie und sagt: "So wird es verwendet." Alle CUDA X-Bibliotheken von NVIDIA werden jetzt mit KI-lernbaren Fähigkeiten ausgestattet. Die Fähigkeit von Agenten, diese Bibliotheken zu verwenden, wird die von menschlichen Programmierern weit übertreffen.
Laufzeit (Runtime): Das Ausführungsumfeld, das alle Komponenten koordiniert. Sicherheitssteuerungen laufen auf der CPU und dem DPU-Sicherheitsprozessor und überwachen den gesamten Prozess. Die Speicherverwaltung ist der schwierigste Teil - das Arbeitsgedächtnis ähnelt einem KV-Cache und muss komprimierte, abgerufene, strukturierte und unstrukturierte Daten verarbeiten.
Die Berechnung von Agenten ist verteilt und heterogen. Dies bringt enorme technische Herausforderungen mit sich: Wenn die Berechnung aufgeteilt wird, wird die Bandbreite zwischen CPU-Kernen, zwischen CPU und Speichergeräten sowie zwischen CPU und GPU zum Engpass. Wenn Daten in und aus dem Chip fließen, darf es keine Tri-State-Verluste geben und keine Chipgrenzen überschreiten. Die Kommunikationsverzögerung zwischen Chips muss extrem gering sein.
Die neuen Anwendungen von Agenten unterscheiden sich grundlegend von den Anwendungen der Vergangenheit. Die Einschränkungen früherer Anwendungen kamen vom Betriebssystem, während die Einschränkungen von Agenten von der Architektur selbst stammen - die Eigenschaften der verteilten Berechnung bestimmen, dass sie in einer heterogenen Umgebung effizient funktionieren muss.
Genau dieses Problem der heterogenen Berechnung hat NVIDIA veranlasst, die Vera Rubin zu entwickeln.
Vera Rubin in voller Produktion, Lieferungen beginnen im Herbst
Heute kündigte Jensen Huang an, dass die Vera Rubin in die volle Produktion hochgefahren wird und die Produkte im Herbst dieses Jahres ausgeliefert werden.
Die Vera Rubin ist die bislang größte POD-Ebene-Plattform von NVIDIA - fünf spezielle Racks bilden einen riesigen KI-Supercomputer, der speziell für Agenten-Workloads konzipiert ist. Die Plattform integriert das Vera Rubin NVL72-System, die Vera CPU, die Groq 3 LPX, das Vera BlueField-4 STX-Speicher und das Spectrum-6 SPX-Ethernet-Rack in ein vollständig integriertes System. Im Vergleich zur Vorgängerplattform NVIDIA Grace Blackwell ist der Massen-Agenten-Durchsatz der Vera Rubin um das 10-fache erhöht.
Jensen Huang sagte: "Die Vera Rubin ist für diesen Moment geschaffen worden - es ist ein KI-Fabrik-Engine, der in großem Maßstab Intelligenz liefern kann und über die Leistung, Effizienz und Sicherheit verfügt, die für die nächste industrielle Revolution erforderlich sind."
Früher dauerte es zwei Stunden, um ein Grace Blackwell-Rack zusammenzubauen, jetzt braucht man nur fünf Minuten. Keine Kabel, keine Schläuche, keine Lüfter, nur eine PCB in der Mitte, die die beiden Seiten verbindet. Als Jensen Huang diesen Vergleich zeigte, war seine Stolz nicht zu verbergen: "Letztes Mal, als ich Ihnen das zeigte, wie lange hat es gedauert, wir hatten überall Kabel. Aber jetzt gibt es eine PCB in der Mitte, die die beiden Seiten verbindet. Was früher zwei Stunden gedauert hat, dauert jetzt nur noch fünf Minuten."
Es geht nicht nur um eine höhere Produktivität, sondern auch um eine qualitative Veränderung bei der Deployment-Geschwindigkeit von KI-Fabriken. Noch wichtiger ist die Verbesserung der Zuverlässigkeit. Ohne Kabel besteht keine Gefahr von Kabelausfällen. Jensen Huang sagte: "Die Zuverlässigkeit und Robustheit der Rubin werden unglaublich hoch sein."
Top-Systemintegratoren, Infrastruktur-Software- und Speicherpartner produzieren die Vera Rubin-Produkte in vollem Umfang, darunter Dell Technologies, HPE, Lenovo und Supermicro sowie taiwanesische Subcontracting-Riesen wie AIC, Compal, Foxconn, Gigabyte, Inventec, Pegatron, Quanta Cloud Technology (QCT), Wistron und Wiwynn.
Die Vera Rubin-Plattform führt die NVIDIA Spectrum-X-Ethernet-Photonentechnologie ein, der weltweit erster auf Common-Packaged Optics (CPO) basierender Switch mit 200 Gb/s SerDes, der jetzt in Produktion ist.
Zusätzlich verwendet die Vera Rubin-Plattform die ganzheitliche NVIDIA Confidential Computing-Technologie, um eine Racks-Ebene-Zertifizierte Ausführungsumgebung zu schaffen. Die Vera Rubin NVL72 integriert die Vera CPU, die Rubin GPU, das NVIDIA NVLink-Netzwerk und Sicherheitsfunktionen auf einer einheitlichen Plattform und verschlüsselt Daten über Hochgeschwindigkeits-Interconnects. Dies bietet eine Hardware-Zertifizierung und gewährleistet die Manipulationssicherheit des Systems.
Die NVIDIA DSX-Plattform bietet die vollständige Design- und Betriebsbasis für die Vera Rubin-KI-Fabrik - sie vereinigt Referenzdesign, Simulation, Infrastruktur-Software, Einrichtungen und Ökosystem-Technologien, um energieeffiziente KI-Fabriken zu bauen und zu betreiben und so die niedrigsten Token-Kosten zu erzielen.
Jensen Huang nahm sich extra Zeit, um Microsoft, Dell und CoreWeave zu danken, da sie bereits die Engineering-Racks der Vera Rubin aufgebaut haben. Dies bedeutet, dass die Subcontracting-Partner nicht nur Komponenten herstellen, sondern auch bei NVIDIA helfen, das gesamte System zu validieren. Chips, Kühlung, Netzwerk und Speicher sind alle miteinander verbunden. Das ist die echte One-Stop-Lieferung.
Vera CPU: Der erste Prozessor für Agenten
Eine weitere Veröffentlichung bei dieser Präsentation war der erste von NVIDIA für die Ära der KI-Agenten entwickelte Prozessor: die Vera CPU.
Jensen Huang