Gerade hat Huang Renxun angekündigt, dass Rubin in vollem Umfang in Produktion geht. 40.000 Ingenieure waren an der Entwicklung beteiligt, und die stärkste CPU aller Zeiten ist gleichzeitig vorgestellt worden.
Gerade jetzt, auf der NVIDIA GTC-Konferenz in Taipeh, Taiwan, hat NVIDIA-CEO Jensen Huang das Thema wieder auf die Entwicklungstrends der KI-Branche fokussiert.
Im Gegensatz zu vor zwei Jahren, als der Schwerpunkt auf der Welle der generativen KI lag, hat Huang diesmal eine neue Einschätzung abgegeben:
„Die generative KI ist da, die praktische KI ist da.“
Die Ära der praktischen KI ist da
Nach seiner Ansicht ist die größte Veränderung in der KI-Branche in den letzten Jahren nicht die weitere Zunahme der Modellparameteranzahl, sondern dass die KI beginnt, ein echtes Produktivitätstool zu werden und direkt die wirtschaftlichen Aktivitäten zu beeinflussen.
Um diese Veränderung zu verdeutlichen, zeigte Huang zunächst eine Reihe von Daten von der Code-Hosting-Plattform GitHub. Er stellte fest, dass die Softwareentwicklung eines der ersten Gebiete ist, in denen die generative KI eingesetzt wurde, und auch eine der größten Gruppen von Wissensarbeitern weltweit ist. Derzeit gibt es weltweit etwa 30 bis 40 Millionen professionelle Softwareingenieure, die von der Programmierung leben, und es sind auch hundert Millionen Studenten und Amateurentwickler daran beteiligt.
In seiner Rede wurde die Anzahl der Code-Commits auf GitHub als wichtiger Indikator für die Veränderung der KI-Produktivität herangezogen:
- Im Jahr 2023 betrug die Anzahl der Code-Commits etwa 300 Millionen;
- Im Jahr 2024 stieg sie auf 400 Millionen;
- Im Jahr 2025 erreichte sie 500 Millionen;
- Und die Daten in den ersten Monaten von 2026 zeigen bereits ein Mehrfaches der früheren Werte.
Huang ist der Meinung, dass diese Zahlen zeigen, dass KI-gestützte Programmiertools die Effizienz der Softwareentwicklung deutlich verbessern.
„Die Softwareingenieure der Welt schaffen einen Lohnwert von etwa 3 Billionen US-Dollar.“ sagte er, „Und diese Software wiederum stützt die weltweiten Wirtschaftsaktivitäten im Umfang von fast 100 Billionen US-Dollar.“
Nach seiner Rechnung, wenn die KI die Produktivität der Softwareentwickler um ein Vielfaches steigern kann, wird der dadurch freigesetzte wirtschaftliche Wert auch weit über die Softwarebranche hinausgehen.
In den letzten Jahren war die Frage, ob Programmierer von KI ersetzt werden können, immer wieder ein heiß diskutiertes Thema in der Branche. Huang gab in seiner Rede eine klare Antwort darauf.
Er ist der Ansicht, dass die Entwicklung der KI nicht die Anzahl der Softwareingenieure verringern wird, sondern eher die Unternehmen dazu anregen wird, mehr Entwickler einzustellen. Die Logik ist einfach: Wenn ein Ingenieur mit KI-Unterstützung eine höhere Leistung erbringen kann, neigen die Unternehmen eher dazu, die Forschungs- und Entwicklungsausgaben zu erhöhen, anstatt die Forschungs- und Entwicklungsteams zu kürzen.
„Es ist völliger Unsinn, zu sagen, dass die KI die Beschäftigung verringern würde.“ sagte Huang.
Nach seiner Ansicht ist es nicht die Kosten pro Arbeitskraft, sondern die Fähigkeit, Wert zu schaffen, die die Beschäftigungsmenge tatsächlich bestimmt. Wenn Softwareingenieure mit KI-Unterstützung mehr Arbeit erledigen können, wird die Nachfrage nach Software und digitalen Fähigkeiten auch noch weiter steigen.
Huang wandte sich dann dem Thema KI-Infrastruktur zu. Er stellte fest, dass sich der Fokus der Branche von der Modellfähigkeit auf die Token-Ausgabefähigkeit verschoben hat, seit die KI aus dem Labor in die praktische Produktion gelangt ist.
In der Vergangenheit war das Token nur ein technischer Indikator im Lauf des Modellbetriebs; jetzt ist es eine Einheit, die direkt Einnahmen generieren kann. Mit anderen Worten: KI-Unternehmen produzieren nicht mehr traditionelle Softwareprodukte, sondern kontinuierlich generierte Tokens.
Wer in der Lage ist, mehr Tokens mit geringeren Kosten und höherer Effizienz zu generieren, hat eine stärkere Geschäftskompetenz.
„Weil das Token jetzt eine rentable Einheit geworden ist – das Token ist jetzt eine rentable Einheit, die Einnahmen generieren kann. Genau deshalb wollen KI-Unternehmen mehr Tokens bauen, mehr Tokens generieren und mehr KI-Fabriken errichten. Das ist der Grund, warum der Bedarf an Rechenleistung in Taiwan so stark gestiegen ist. Und darum sind Sie alle so beschäftigt und Ihre Geschäfte laufen so gut. Tatsächlich können Sie das an einigen Ihrer Aktienkurse sehen.“ sagte Huang.
Dies ist auch der Hauptgrund, warum die Errichtung von Rechenzentren weltweit weiter zugenommen hat und der Bedarf an KI-Rechenleistung in Taiwan rapide gewachsen ist.
In seiner Beschreibung ersetzt die KI-Fabrik (AI Factory) allmählich die traditionellen Rechenzentren und wird zum Kern der neuen Infrastruktur für die Rechenleistung.
Von der Applikationsära in die Agentenära
Nach Huang's Ansicht ist die größere Veränderung nicht nur die Verbesserung der Modellleistung, sondern auch die Veränderung des Rechenparadigmas selbst.
In den letzten Jahrzehnten folgten Computer dem Muster: Applikation → Code → Betriebssystem. Benutzer erledigten Aufgaben, indem sie auf die Benutzeroberfläche klickten und Befehle eingaben.
In der KI-Ära bildet sich ein neues Schema: Agent → Large Language Model → Toolsystem.
Huang zeigte ein typisches Schema der Agent-Systemarchitektur.
In dieser Architektur ist das Large Language Model für das Verständnis von Problemen, die Inferenz und die Planung verantwortlich; der äußere Rahmen ist für die Verwaltung des Kontexts, den Aufruf von Tools, die Koordination der Aufgabenausführung und die Verwaltung des Langzeit- und Kurzzeitgedächtnisses zuständig. Um Aufgaben zu erledigen, kann der Agent Browser, Datenbanken, Tabellenkalkulationsprogramme, Datenanalyse-Engines, CAD-Design-Software und verschiedene Unternehmenssysteme aufrufen.
Der gesamte Prozess ähnelt eher einem digitalen Mitarbeiter als einer traditionellen Software. „Früher starteten wir Applikationen, klickten auf Schaltflächen und gaben Inhalte ein.“ sagte Huang, „Zukünftig müssen wir nur unserer Absicht gegenüber der KI erklären.“ Dann schreibt die KI automatisch Code, ruft Tools auf und erledigt die Aufgabe.
Der Aufstieg der Agenten hat auch eine weitere Debatte ausgelöst: Wenn die KI die Arbeit erledigen kann, werden die Softwareunternehmen aussterben?
Huangs Antwort ist genau das Gegenteil.
Er ist der Ansicht, dass die Agentenära eine viel größere Anzahl von Softwaresystemen hervorbringen wird als heute. Der Grund ist, dass die Anzahl der digitalen Agenten nicht mehr durch die Bevölkerungsgröße begrenzt ist. In Zukunft kann jeder Unternehmensprozess, jeder Geschäftsschritt und sogar jede persönliche Aufgabe einen eigenen Agenten haben. Und diese Agenten müssen viele externe Tools und Dienste aufrufen, um ihre Arbeit zu erledigen.
Deshalb wird die Software nicht verschwinden, sondern muss in einer „KI-aufrufbaren“ Form neu existieren.
„Dies ist eine der besten Zeiten für die Softwarebranche.“ sagte Huang.
Unter diesen Umständen wird auch die langjährig aufgebauten CUDA-Ekosystem von NVIDIA neue Chancen erhalten.
In der Vergangenheit war die CUDA-Bibliothek hauptsächlich für Entwickler bestimmt; jetzt können diese Fähigkeiten direkt von den Agenten aufgerufen werden und werden zu einem Toolset, wenn die Agenten Aufgaben ausführen. In gewisser Weise ist die Botschaft, die Huang zu vermitteln versucht, sehr klar: In der Ära der generativen KI geht es darum, was das Modell kann, während in der Ära der praktischen KI es darum geht, welche Arbeit das Modell erledigen kann.
Wenn die KI beginnt, Einnahmen zu generieren, das BIP zu steigern und komplexe Aufgaben durch die Agenten mit Tools auszuführen, wird sie nicht mehr nur ein Chatbot, sondern wird zu einer neuen Rechenplattform.
„NVIDIA ist in erster Linie ein Softwareunternehmen“
Nach der Diskussion über die durch die Agenten verursachte Veränderung des Rechenparadigmas betonte Huang erneut eine Ansicht, die er in den letzten Jahren immer wieder erwähnt hat:
NVIDIA ist im Wesentlichen ein Softwareunternehmen.
Anschließend erläuterte Huang die Kernarchitektur und die Betriebslogik der KI-Agenten.
Er sagte, dass die Agenten das ultimative entkoppelte und verteilte Rechenmodell sind und eine riesige Anzahl von verschiedenen Rechenleistungseinheiten koordinieren müssen, um zusammenzuarbeiten. Ein vollständiger KI-Agent besteht aus fünf Kernteilen: Modell, Rahmen, Tools, Fähigkeiten und Laufzeitumgebung. Die Komponenten laufen verteilt auf verschiedenen Knoten in Rechenzentren. Er verglich es bildlich mit einem Arbeitsindividuum: Das Modell ist das „Gehirn“ des Agenten und ist für das Denken und die Entscheidungen verantwortlich; der Rahmen ist das „Körperliche“ und trägt den gesamten Betrieb; die Laufzeitumgebung ist wie ein eigenes Arbeitszimmer und unterstützt die Implementierung verschiedener Tools. Das gesamte System führt die Rechenleistungszuteilung und die Aufgabenausführung in einem ultragrößem Maßstab durch.
Laut seiner Darstellung wird jeder Arbeitsprozess des Agenten in verschiedene Module des Computers aufgeteilt und schrittweise erledigt. Dabei übernimmt das Large Language Model die Kernintelligenzaufgaben wie das Denken, die Kontextverarbeitung, die Umweltwahrnehmung, die logische Inferenz, die Planung und die Ausführung von Aktionen. Dieser Prozess aktiviert in Massen die Grace Blackwell NVLink 72 Rechenleistungskluster. Bei der Phase, in der der Agent Tools aufruft, übernimmt die CPU die Rechenarbeit und kann an C-Compiler, Python, JavaScript und verschiedene Beschleunigungsrechentools angepasst werden.
Huang ist der Ansicht, dass die Fähigkeit der KI-Agenten zur Toolanwendung noch in einem frühen Stadium ist und in Zukunft eine professionelle und erfahrene Verbesserung erreichen wird. Deshalb hat NVIDIA die CUDA X-Bibliothek erheblich verbessert. Alle Bibliotheksprodukte werden mit einem eigenen KI-Fähigkeitshandbuch versehen, damit die KI-Agenten sich selbstständig lernen und die Verwendung der Tools beherrschen können. Dies wird die Fähigkeit der Agenten zur Lösung von verschiedenen Kernbranchenproblemen erheblich verbessern. In Zukunft wird der Rechenleistungswert und das Anwendungs-potenzial der Agenten bei der Verwendung der CUDA X-Tools stark freigesetzt werden.
In dem gesamten Agenten-Rechenleistungssystem haben verschiedene Hardware- und Funktionsmodule klare Aufgaben. Die Rechenaufgaben der Tools werden von der CPU, der GPU und dem Large Language Model gemeinsam erledigt; der Sicherheitschutzrahmen wird auf der CPU und dem NVIDIA BlueField DPU-Sicherheitsprozessor installiert, um die Betriebssicherheit umfassend zu gewährleisten; die Planung und Koordination der gesamten Aufgaben werden von der CPU geleitet und implementiert, um ein heterogenes Rechensystem mit klarer Hierarchie und klarer Aufgabenteilung zu bilden.
In seiner Rede erwähnte Huang besonders das zentrale Problem der KI-Rechenleistung – das Speichersystem. Er sagte, dass das Arbeitsgedächtnis der Agenten über den KV-Cache realisiert wird, das komplexe Operationen wie das Gedächtnis, die Datenkompression, die Informationssuche, die Übereinstimmung von strukturierten und unstrukturierten Daten sowie die logische Beziehungsklärung und die Ontologiebeziehungsanalyse verschiedener Daten umfasst. Der gesamte Verarbeitungsprozess ist äußerst schwierig und komplex. Er prognostiziert, dass die Iteration und Verbesserung des KI-spezifischen Speichersystems eine umwälzende Revolution des weltweiten Speichersystems bewirken wird.
Im Vergleich zum traditionellen Softwarebetriebsmodell betonte Huang, dass das neue Rechenparadigma, das von den KI-Agenten repräsentiert wird, grundlegende Unterschiede aufweist. Früher waren die meisten Software in einem zentralisierten Betriebsmodell, in dem eine einzige Binärdatei einer einzigen Betriebssystem angepasst war. Die Agenten verwenden jedoch ein neues Rechenkonzept, das entkoppelt, verteilt und heterogen ist. Dies ist auch der Kernmotiv für NVIDIA, die nächste Generation des Vera Rubin-Plattform zu entwickeln.
Bezüglich der neuen Vera Rubin-Plattform machte Huang klar, dass es sich nicht um eine einzelne Chip oder ein gewöhnliches GPU-Produkt handelt, sondern um ein end-to-end komplettes revolutionäres System. Diese Plattform hat die GPU als Kernpunkt, integriert die GPU, Vera und die NVLink 72 Kernhardware, plant die globale Aufgaben über mehrere CPUs, und ist mit einem revolutionären Speichersystem ausgestattet, um eine ganzheitliche Rechenleistungsbasis zu bilden. Gleichzeitig integriert die Plattform die CX-9 Hardware, den DOCA-Softwarestack und den eingebauten Sicherheitsprozessor, um die Daten in allen Phasen wie im Ruhezustand, während der Übertragung und bei der Verwendung zu verschlüsseln und die Sicherheit der hochwertigen KI-Modelldaten umfassend zu schützen.
Huang sagte direkt, dass die Vera Rubin das ambitionierteste Forschungsprojekt in der Geschichte von NVIDIA ist. Alle 40.000 Ingenieure des Unternehmens sind an diesem Projekt beteiligt, und es wird auch die Kraft der Branchenpartner zusammengebracht, um es umzusetzen. Es ist ein extrem komplexes System, das von Grund auf neu gestaltet wurde. Er gestand, dass NVIDIA bereits die strategische Umstellung von einem einfachen GPU-Hersteller zu einem Full-Stack-Systemhersteller vollendet hat. Das derzeit vorgestellte Vera Rubin-System ist das bisher komplexeste und vollständigste