Als Huang Renxun und Wu Yongming dasselbe englische Wort ausrufen

In den letzten zwei Jahren gab es verschiedene Maßeinheiten für die AI, sowohl bei den Modellen als auch bei den Anwendungen. In der Agenten-Ära müssen alle Maßeinheiten mit dem Suffix "/ 1M tokens" versehen werden.

Text | Qiu Xiaofen kann ersetzt werden durch Text | Qiu Xiaofen (Da es keine entsprechende deutsche Übersetzung für den Namen gibt, bleibt die englische Form bestehen. Dasselbe gilt im Folgenden) Dieser Teil kann übersetzt werden als Text | Qiu Xiaofen

Redaktion | Su Jianxun

Am 16. März Ortszeit in San Francisco, USA, hat die NVIDIA GTC 2026 offiziell begonnen. In dem zweistündigen, begeisternden Keynote - Vortrag von Jensen Huang, Gründer und CEO von NVIDIA, war ein Schlüsselwort durchgehend präsent - Token.

△ Jensen Huang, Bildquelle: Screenshot der Pressekonferenz

Zufällig genug hat Alibaba am Tag vor der GTC 2026 die Gründung der Token - Geschäftseinheit angekündigt. Dies ist eine zentrale, unabhängige Geschäftseinheit auf der gleichen Stufe wie Taotian E - commerce und Alibaba Cloud. In dieser neuen Geschäftseinheit hat Alibaba auch die Kette von "Token schaffen, Token liefern, Token anwenden" festgelegt.

Token ist die grundlegende semantische Einheit bei der Verarbeitung von Textinformationen durch große Modelle. Wenn Sie einen Text eingeben, wird dieser zunächst vom Tokenizer in eine Reihe von Token zerlegt. Diese Token werden dann in numerische Vektoren umgewandelt und in die GPU zur Durchführung von Massenmatrixberechnungen eingespeist.

In der Vergangenheit hatten verschiedene Akteure in der AI - Branche ihre eigenen interessierenden Indikatoren und Bewertungsstandards. Das Team hinter den unteren großen Modellen konzentrierte sich auf die Größe der Modellparameter, das obere Anwendungs - Team auf die Benutzerzahl und die tägliche Aktivität, und das Cloud - Service - Team auf die Auslastung der Rechenleistung und die tatsächlichen Einnahmen.

Wu Yongming, CEO von Alibaba, hat intern darauf hingewiesen, dass AI - Agenten stark von Token abhängen und die Zukunft in eine Periode des "Explosionsbedarfs" eintreten wird.

Das, was Alibaba und NVIDIA mit der Betonung von Token in kurzer Zeit signalisieren, ist, dass die beiden Konzerne hoffen, bei der Ankunft der Agent - Ära in technischer, produktiver und kommerzieller Hinsicht die Maßeinheiten einheitlich festzulegen.

Vielleicht werden in nicht zu ferner Zukunft alle Indikatoren im Bereich der KI um ein Suffix erweitert: "/ 1M Tokens".

Die Billionen - Erzählung: Vom Rechenzentrum zur Token - Fabrik

"Der Wendepunkt bei der Inferenz ist erreicht", hat Jensen Huang in seinem GTC - Vortrag festgestellt. In den letzten zwei Jahren hat die Inferenz - Rechenleistung um etwa das zehntausendfache und der Verbrauch um etwa das Hundertfache zugenommen. Hinter diesem Millionfachen - Wachstum verbirgt sich die spürbare Veränderung, dass die Rolle der KI allmählich von der ursprünglichen Wahrnehmung über die Generierung und die Inferenz bis hin zur Arbeitfähigkeit gewandelt hat.

Unter dieser Veränderung hat Jensen Huang im Vortrag darauf hingewiesen, dass der Zusammenhang zwischen Token und den Einnahmen von AI - Unternehmen immer deutlicher wird - ein Unternehmen, das mehr Rechenleistung erhält, kann mehr Token generieren und seine Einnahmen steigern, was wiederum die KI intelligenter macht.

Unter dieser Übertragungskette profitiert NVIDIA am meisten und hat zunehmend ambitionierte Ziele.

Auf der GTC 2025 hat Jensen Huang vorhergesagt, dass die Bestellungen für die Blackwell - und Rubin - Plattformen bis 2026 auf 500 Milliarden US - Dollar geschätzt werden. Auf dieser GTC hat er nun ein neues Ziel für das nächste Jahr genannt: Diese Zahl wird sich verdoppeln und auf über eine Billion US - Dollar steigen. Diese Ambition hat schnell auf dem zweiten Markt Reaktionen ausgelöst und den Aktienkurs von NVIDIA um 4,3 % in die Höhe getrieben.

Um dieses Billionen - Wachstumsziel zu unterstützen, hat Jensen Huang eine neue Erzählung von NVIDIA vorgeschlagen - von Rechenzentrum zur Token - Fabrik.

△ Die Einnahmenstruktur von NVIDIA, Bildquelle: Screenshot der Pressekonferenz

Jensen Huang ist der Meinung, dass in Zukunft jede AI - Firma und jeder Cloud - Anbieter die Effizienz der Token - Fabrik als zentralen Betriebsindikator festlegen sollte.

Sogar in Zukunft werden Token zu neuen "Rohstoffen" werden und anhand von Durchsatz und Interaktionsgeschwindigkeit neu bewertet werden.

Jensen Huang hat im Vortrag Token in vier Preisbereiche eingeteilt -

Kostenlose Ebene: Bereich mit hohem Durchsatz und niedriger Interaktionsgeschwindigkeit, hauptsächlich monetarisiert über das Werbemodell;

Mittlere Ebene (3 US - Dollar pro Million Token), Hochwertige Ebene (6 US - Dollar pro Million Token): Ein Gleichgewicht zwischen Durchsatz und Interaktionsgeschwindigkeit, hauptsächlich der Hauptbereich für bezahlte Dienste;

Hochgeschwindigkeits - Ebene (45 US - Dollar pro Million Token), Ultra - Hochgeschwindigkeits - Ebene (150 US - Dollar pro Million Token): Bereich mit hohem Aufschlag und hoher Interaktion, auch das neue Marktsegment, auf das die Rubin - Architektur und zukünftige Architekturen abzielen.

Jensen Huang hat betont, dass die drei Architekturen von NVIDIA den Kunden auf der kostenlosen Ebene einen extrem hohen Durchsatz ermöglichen werden, und auf der Ebene der höchstwertigen Inferenz wird die Durchsatzeffizienz der neuen Architektur von NVIDIA um das 35 - fache gesteigert werden.

△ Jensens Token - Ökonomie, Bildquelle: Screenshot der Pressekonferenz

NVIDIA ist nicht mehr nur eine GPU - Chip - Firma

Um die Ambitionen der Billionen - Dollar - Token - Fabrik zu verwirklichen, kann NVIDIA nicht mehr wie bisher nur eine GPU - Firma sein.

NVIDIA ändert offensichtlich auch seine Produktstrategie. Anstatt einfach nur die Rechenleistung zu erhöhen, konzentriert es sich stärker auf die Gesamtleistung der gesamten Plattform, insbesondere auf die Inferenzleistung.

Auf dieser GTC hat Jensen Huang eine neue Lösung vorgelegt: Das Rechensystem Vera Rubin, speziell für die Inferenz von Agenten entwickelt, besteht aus sieben neuen Chips, fünf Rack - Systemen und einem Supercomputer.

Laut Angaben hat Vera Rubin hauptsächlich die folgenden Highlights:

① GPU - Teil: 72 GPUs sind über NVLink - Hochgeschwindigkeitsverbindungen miteinander verbunden. Dies beschleunigt nicht nur die Berechnungsgeschwindigkeit der Vorauffüllung (Prefill), sondern sichert auch die Reaktionsgeschwindigkeit bei der Generierung von Token (KV Cache);

② Vera CPU: Wenn Agenten Tools aufrufen, sind oft viele Operationen mit wiederholten Logiken und Bedingungsüberprüfungen beteiligt, bei denen GPUs nicht so stark sind. Daher hat NVIDIA die neue Vera CPU entwickelt, die als "Disponent" fungiert und Steueraufgaben übernimmt, um die GPU zu entlasten. Die Vera CPU ist auch die weltweit einzige Data - Center - CPU, die LPDDR5 - Speicher verwendet. (Hinweis des Autors: Der energieeffiziente LPDDR5 - Speicher wird normalerweise in Flaggschiff - Smartphones verwendet)

△ Vera CPU, Bildquelle: Screenshot der Pressekonferenz

③ BlueField 4 + CX 9 - Speicherplattform: Eine AI - Fabrik erfordert eine große Datenverarbeitungskapazität. Daher hat NVIDIA ein speziell für den AI - Datenfluss optimiertes Speichernetzwerk neu aufgebaut.

④ CPO Spectrum - X - Switch: Die Integration des optischen Engines und des Switch - Chips in einem Paket macht es zum weltweit ersten optisch gekapselten optischen Ethernet - Switch, der das traditionelle Steckmodul ersetzt.

⑤ Vollständige Verwendung des Flüssigkeitskühlungskonzepts, die Installationszeit wird von zwei Tagen auf zwei Stunden verkürzt

Laut Jensen Huang wird Vera Rubin ab der zweiten Jahreshälfte 2026 ausgeliefert werden. Bei der praktischen Anwendung zeichnet sich das Vera Rubin - System dadurch aus, dass die Inferenzgeschwindigkeit fünfmal höher ist als die des Vorgängers Blackwell Ultra, die Token - Kosten um das Zehnfache gesenkt werden und nur ein Viertel der Anzahl an GPUs im MoE - Modell benötigt wird.

Es ist zu beachten, dass NVIDIA kürzlich die Groq LPU - Plattform erworben und in sein Rechensystem integriert hat.

Allerdings wird die Integration des umfangreichen Vera Rubin mit der kompakten Groq LPU sicherlich Probleme bei der Chip - Scheduling verursachen. Daher hat NVIDIA speziell für dieses Problem ein Betriebssystem namens Dynamo entwickelt.

Das Betriebssystem Dynamo kann als Dirigent verstanden werden, der Rechenaufgaben mit verschiedenen Eigenschaften an passendere Hardwarekomponenten verteilt, um die Effizienz zu maximieren.

Jensen Huang empfiehlt, wenn die Arbeitslast hauptsächlich aus hohem Durchsatz besteht, 100 % Vera Rubin zu verwenden. Wenn eine große Arbeitslast aus der Generierung von hochwertigen Token wie Code besteht, können einige Groq - Chips eingesetzt werden, z. B. 25 %.

△ Groq 3 LPU, Bildquelle: Screenshot der Pressekonferenz

Der Groq LP30 ist derzeit in Massenproduktion und wird von Samsung hergestellt. Die Auslieferung ist für das dritte Quartal geplant. Laut Angaben wird diese heterogene kooperative Konstruktion eine 35 - fache Leistungserhöhung pro Energieverbrauch im Rechenzentrum ermöglichen und gleichzeitig ultraniedrige Latenzzeiten und hochwertige Inferenz - Services gewährleisten.

Außer Vera Rubin hat NVIDIA auch die nächste Generation der GPU - Architektur Vera Rubin Ultra (für 2028 geplant) und die Feynman - Architektur angekündigt.

Zusammenfassend lässt sich sagen, dass 3D - Stacking, LPU - Integration, heterogenes Speichernetzwerk, CPO (Common - Package - Optik) und Kupferverbindungen die Kerntechnologien der zukünftigen NVIDIA - Plattform sind.

△ Die Plattform - Roadmap von NVIDIA (Blackwell, Rubin, Feynamn), Bildquelle: Screenshot der Pressekonferenz

Die NVIDIA - Version von OpenClaw ist da

In diesem Vortrag hat Jensen Huang nicht nur seine Ambitionen dargelegt, sondern auch Platz für das derzeitige Highlight OpenClaw gelassen. Als das beliebteste Open - Source - Projekt in der Geschichte der Menschheit hat OpenClaw in wenigen Wochen die Erfolge von Linux in den letzten dreißig Jahren übertroffen.

Er ist der Meinung, dass OpenClaw drei Hauptfunktionen hat: Es kann Ressourcen (Tools, große Sprachmodelle) verwalten, Probleme zerlegen und Agenten aufrufen sowie multimodale Ausgaben generieren und ausführen. Daher ist OpenClaw im Wesentlichen ein Agenten - Betriebssystem, das genauso wichtig ist wie HTML und Linux.

Nach Jensens Ansicht wird OpenClaw in Zukunft die Unternehmens - IT neu gestalten. In Zukunft wird jede SaaS - Firma zu einer AaaS - Firma werden. Neben der Bereitstellung von Tools wird sie auch AI - Agenten für jedes spezifische Bereich anbieten. "Eine Branche mit einem Volumen von ursprünglich zwei Billionen US - Dollar wird in ein Geschäft von mehreren Billionen US - Dollar wachsen."

Allerdings hat Jensen Huang auch gewarnt, dass OpenClaw Sicherheitsrisiken birgt, wenn Agenten uneingeschränkt auf sensible Unternehmensdaten und Code zugreifen können. Daher hat NVIDIA auch in Zusammenarbeit mit Peter Steinberger, dem Entwickler von OpenClaw, die Unternehmensversion NeMo Claw eingeführt.

Laut Angaben integriert NeMo Claw nicht nur das vollständige Agenten - Toolkit von NVIDIA, sondern bietet auch eine Reihe von Maßnahmen (Netzwerk - Schutzbarrieren, Datenschutz - Routing usw.), um die Datensicherheit der Unternehmen zu gewährleisten.

△ Die NVIDIA - Version von OpenClaw, Bildquelle: Screenshot der Pressekonferenz

Jensen Huang hat sogar angedeutet, dass in Zukunft auf dem Silicon - Valley - Arbeitsmarkt Token möglicherweise ein Teil des Gesamtjahresgehalts von Ingenieuren werden könnten.

Dieser Artikel wurde ursprünglich von「邱晓芬」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.