Im ersten globalen Jahr der Agent-PCs: Warum können chinesische KI-PCs vorpreschen?
Bei der kürzlich veranstalteten GTC Taipei hat Jensen Huang gesagt, dass die Art und Weise, wie man in den letzten 40 Jahren PCs benutzt hat, darin bestand, Anwendungen zu öffnen, auf Buttons zu klicken und Daten einzugeben. Jetzt wollen Microsoft und NVIDIA den PC neu erfinden.
Er hat einen Computer gezeigt, der einen persönlichen Agenten rund um die Uhr betreiben kann, wodurch die Öffentlichkeit deutlich werden konnte, dass die KI aus der Ära der großen Sprachmodelle in die Ära der Agentic KI eintritt.
Die Rolle des PCs ändert sich auch: Vom Werkzeug, das passiv auf Benutzereingaben wartet, wird er zum persönlichen Rechenzentrum, das Situationen verstehen, Planungen treffen und Werkzeuge nutzen kann. Diese Veränderung hat Jensen Huang als die wichtigste Neugestaltung der PC-Grundstruktur seit Windows 95 bezeichnet.
Fast zur gleichen Zeit wurde der chinesische KI-PC Great Wall N90 Pro offiziell vorgestellt. Dieser KI-PC hat eine ähnliche Position wie der von Jensen Huang gezeigte Agent Computer. Beide basieren auf dem Agenten als Designprinzip und ermöglichen die reibungslose lokale Ausführung großer Modelle auf Endgeräten in einem dünnen und leichten Gehäuse.
Zwei Technologiestrategien werden gleichzeitig vorangetrieben, was zu demselben Schluss führt: Die Rechenleistung auf Endgeräten ist der Eintrittsschein in die Agenten-Ära.
Was die konkreten Lösungen betrifft, was unterscheidet die chinesischen Lösungen in den drei Dimensionen Rechenleistungszufuhr, Wirtschaftlichkeit und Sicherheitsgrenzen?
01. Den PC neu „erfinden“: Was benötigt ein Agent-Computer von Grund auf?
Jensen Huang hat den Agent Computer in drei notwendige Bedingungen zerlegt.
Erstens ist ausreichende lokale Rechenleistung erforderlich, da der Agent mehrere Modellaufrufe und Inferenzen gleichzeitig verarbeiten muss, und die Parameteranzahl geht in die Milliarden. Zweitens ist eine sichere Sandbox erforderlich, um sicherzustellen, dass der Agent in einer geschützten Umgebung läuft und nicht beliebig auf die Ressourcen des gesamten Systems zugreifen kann. Drittens ist die Agent-Laufzeitumgebung erforderlich, also die Zwischenschichtsoftware, die die Benutzerabsicht verstehen, Aufgaben zerlegen und Werkzeuge aufrufen kann.
Diese drei Bedingungen sind notwendig, weil die Arbeitsweise von Agenten völlig anders ist als die von herkömmlichen Software. Der Ausführungsweg von herkömmlichen Software ist linear: Der Benutzer klickt auf einen Button, die Software führt eine Funktion aus und beendet sich dann.
Der Betrieb von Agenten ist dagegen zyklisch: Er empfängt eine vage Anweisung, zerlegt sie selbst in mehrere Schritte, ruft verschiedene Werkzeuge auf und passt die nächste Aktion anhand der Zwischenergebnisse an, bis die Aufgabe abgeschlossen ist. In diesem Prozess benötigt jede Inferenz Rechenleistung, jeder Werkzeugaufruf erfordert eine Zugriffskontrolle, und jeder Schrittübergang muss während der Laufzeit geplant werden.
Von den drei Bedingungen ist die Rechenleistung die, auf die die Branche am ersten ansetzen will.
2024, als Microsoft den Copilot+PC-Standard vorschlug, wurden nur 40 TOPS gefordert. Damals war die allgemeine Meinung in der Branche, dass dies ausreichen würde. Doch nach zwei Jahren hat sich diese Einschätzung geändert. Von der Desktop-Automatisierung von OpenClaw bis hin zum intelligenten Meeting-Assistenten hat sich das große KI-Modell von einem Chat-Tool zu einem eigentlichen Produktivitätstool entwickelt. Eine Aufgabe erfordert mehrere Inferenzen, und kleine Parameter reichen einfach nicht aus. Die Branche ist sich jetzt einig, dass Modelle mit 35 Milliarden Parametern oder mehr als Einstiegspunkt gelten.
Das Wachstum der Rechenleistungsanforderungen ist viel schneller als die Iterationsgeschwindigkeit der Chips: Die Aktualisierung einer Chip-Generation dauert etwa zwei Jahre, während die aktuellen KI-Anwendungen und multimodalen großen Modelle alle paar Monate eine große Veränderung erfahren.
Die Auswirkungen dieser Rhythmusunterschiede spiegeln sich bereits in der Wertschöpfungskette wider. Top-Unternehmen in der Branche sind der Meinung, dass derzeit etwa 70 % - 80 % der KI-Rechenleistung für das Training und 20 % - 30 % für die Inferenz verwendet werden, aber in Zukunft wird sich dieses Verhältnis umkehren. Daten von TrendForce zeigen auch, dass die KI-Trainingsrechenleistung der fünf größten Cloud-Dienstleister in Nordamerika im Jahr 2026 um 56 % steigen wird, während die Inferenzrechenleistung um 122 % explodieren wird.
Wenn die Rechenleistung steigt, wird der Stromverbrauch zum neuen Problem.
Bei herkömmlichen Lösungen wächst der Stromverbrauch und die Größe der Chips linear, wenn die Rechenleistung von einigen Dutzend TOPS auf mehrere hundert TOPS erhöht wird, und sie passen nicht in dünne und leichte Notebooks.
Great Wall N90 Pro KI-PC
Die Antwort des Great Wall N90 Pro lautet: Man denke zuerst darüber nach, was ein Notebook benötigt, und wähle dann den passenden Chip.
Viele KI-Chips wurden ursprünglich für Rechenzentren entwickelt, haben einen Stromverbrauch von mehreren hundert Watt und sind sehr groß. Wenn sie auf Endgeräte übertragen werden, werden Probleme wie Wärmeableitung, Akkulaufzeit und Lärm. Der von Great Wall N90 Pro verwendete M50-Chip ist nicht aus einem Server-System übernommen.
Der M50-Chip stammt von Houmo Intelligence. Der Schlüsselpunkt der unterliegenden Technologie dieser Lösung ist die „Speicher-Rechner-Integration“. Bei herkömmlichen Chips sind die Berechnung und der Speicher getrennt, und die Daten müssen ständig zwischen ihnen hin und her transportiert werden, was selbst viel Energie verbraucht. Die Speicher-Rechner-Integration führt die Berechnung und den Speicher tiefgehend zusammen, so dass die Daten nicht mehr über lange Strecken transportiert werden müssen, und der Stromverbrauch sinkt erheblich.
Unter der Voraussetzung, dass das 35B-Modell lokal läuft, wird der Stromverbrauch des M50-Chips auf etwa 10 Watt gesteuert, und der gesamte Platinenstromverbrauch beträgt weniger als 15 Watt. Das bedeutet, dass er direkt an der M.2-Schnittstelle betrieben werden kann, genauso wie eine normale SSD.
Man kann sehen, dass in der Ära des Agent Computers die chinesischen Lösungen zur Lösung des Problems der Rechenleistung auf Endgeräten deutlich „bedarfsorientiert“ sind. Anstatt Server-Chips zwangsläufig in Notebooks zu integrieren, wird von den realen Szenarien der Endgeräte ausgegangen, und ein Chip speziell für Notebooks entwickelt. Probleme wie Stromverbrauchskontrolle, Wärmeableitungsdesign und Akkulaufzeitausgleich werden bereits in der Entwurfsphase berücksichtigt.
Great Wall hat sich entschieden, mit Houmo Intelligence zusammenzuarbeiten und eine tiefe synergetische Optimierung durchzuführen, weil es die Fähigkeit von Houmo Intelligence schätzt, das Konzept der Speicher-Rechner-Integration in die Massenproduktion umzusetzen.
Ein Chip mit einem Stromverbrauch von 10 Watt ermöglicht es einem dünnen und leichten Notebook mit einem Gewicht von etwas über einem Kilogramm, ein großes Modell mit 35 Milliarden Parametern lokal reibungslos auszuführen. Früher benötigte man dazu eine GPU mit über 500 Watt und einen Vollformat-Tower-Arbeitsplatz, jetzt reicht ein normales Notebook.
Sobald die Rechenleistung und der Stromverbrauch „ausreichen“, wird das nächste notwendige Kriterium auf das Sicherheitsproblem abgestellt. Die Arbeitsweise des Agenten erfordert Daten, und die lokale Rechenleistung hat einen natürlichen Vorteil: Die Daten bleiben auf dem Endgerät.
Agent-Aufgaben betreffen häufig sensible Informationen wie Meeting-Protokolle, persönliche Wissensbestände und Bürodokumente. Sobald die Verarbeitung in der Cloud erfolgt, wird das Risiko der Compliance erhöht. Die lokale Ausführung auf Endgeräten stellt sicher, dass die Daten vom Eingang bis zum Ausgang in einer lokalen Schleife bleiben, was die Sicherheits- und Compliance-Anforderungen auf physischer Ebene erfüllt und eine Voraussetzung für die reiche Palette von Anwendungsfällen des Agent Computers ist.
Jensen Huang hat auch wiederholt die Wichtigkeit der Sicherheit betont. Die globale KI-Industrie hat erkannt, dass Sicherheit eine unabdingbare Voraussetzung für die Verbreitung von Agenten ist.
Im Jahr 2026 kann die Verbreitungsgeschwindigkeit von KI-PCs anhand ausreichender Marktstatistiken gemessen werden. Gartner prognostiziert, dass die weltweite Liefermenge von KI-PCs im Jahr 2026 auf 143 Millionen Geräte steigen wird, was 55 % des gesamten PC-Marktes ausmacht. Dies bedeutet auch, dass KI-PCs möglicherweise bald die herkömmlichen PCs als beliebteste Kaufoption überholen werden.
Der chinesische Markt entwickelt sich noch schneller und ist bereits der Motor für den Markt. IDC prognostiziert, dass die Gesamtliefermenge von PCs in China im Jahr 2026 um 0,8 % sinken wird, während die Liefermenge von KI-PCs um 146,5 % ansteigen wird. Die durchschnittliche jährliche Wachstumsrate in den nächsten fünf Jahren wird 58,7 % betragen, und bis 2029 wird der Anteil von KI-PCs am gesamten PC-Markt 36,5 % betragen.
Auch auf Betriebssystemebene wird die Unterstützung für lokale Rechenleistung verbessert. Die kontinuierliche Aktualisierung von Microsoft Windows 11 hat zahlreiche KI-Funktionen hinzugefügt, und chinesische Betriebssystemhersteller wie Kylin beginnen auch, lokale Agent-Fähigkeiten zu integrieren.
Von den Chips über die gesamten Geräte bis hin zum Betriebssystem und den Agent-Anwendungen bereitet sich die gesamte Wertschöpfungskette auf den Agent-Computer von Grund auf vor.
02. Rechnen Sie eine „Token-Rechnung“: Wie wichtig ist die Rechenleistung auf Endgeräten?
Die Rechenleistung beantwortet die Frage, ob etwas laufen kann, während die Token-Kosten bestimmen, wo es am kostengünstigsten läuft.
Dieses Problem beginnt auch im Jahr 2026, als die Agenten in großem Maßstab eingesetzt werden, die Geschäftlogik der gesamten KI-Berechnung neu zu gestalten. Jensen Huang hat auf der GTC 2026 im März das Token-Ekonomiekonzept vorgestellt. Er hat die Token-Services in fünf Ebenen unterteilt:
Die kostenlose Ebene dient dazu, Benutzer anzuziehen; die Basis-Ebene kostet etwa 3 US-Dollar pro Million Token und richtet sich an normale Benutzer; die Fortgeschrittene-Ebene kostet etwa 6 US-Dollar pro Million Token und bietet größere Modelle und schnellere Geschwindigkeit; die Hochgeschwindigkeits-Ebene kostet etwa 45 US-Dollar pro Million Token und unterstützt lange Kontexte und tiefe Inferenzen; die Spitzen-Ebene kostet etwa 150 US-Dollar pro Million Token und ist für sehr lange Forschungsaufgaben und Echtzeitreaktionen auf kritische Pfade ausgelegt.
Er hat eine Rechnung gemacht: Ein Forscher verwendet täglich 50 Millionen Token. Bei einem Preis von 150 US-Dollar pro Million Token ist dies für ein Forschungsunternehmen akzeptabel.
Token sind keine Einmalzahlung. Solange die KI läuft, werden Token verbraucht. Wenn die Agent-Anwendungen vollständig eingeführt werden, kann die monatliche Token-Rechnung für eine unternehmensweite KI-Anwendung leicht mehrere hunderttausend US-Dollar betragen.
Im März 2026 hat Alibaba die Token Hub Business Group gegründet, und der CEO Wu Yongming hat die Leitung übernommen. Dies zeigt, dass die Token-Verwaltung tatsächlich von einem technischen Problem zu einem geschäftlichen Strategieproblem geworden ist. Derzeit haben mehrere chinesische Cloud-Dienstleister bereits oder sind dabei, die API-Aufrufpreise anzupassen, und der Preis für eine Million Token einiger Modelle ist in kurzer Zeit mehrmals gestiegen.
Es ist vorhersehbar, dass Token nicht nur eine Abrechnungseinheit werden, sondern auch direkt in knappe geschäftliche Ressourcen umgewandelt werden können.
Die Geschäftlogik der Rechenleistung auf Endgeräten wird hier klar: Der einmalige Kauf der KI-PC-Hardware bedeutet, dass keine weiteren Token-Kosten für die Grundinferenzen anfallen. Dies ist sicherlich ein lohnendes Angebot.
Agenten werden den Token-Verbrauch vervielfachen, und der Vorteil der Null-Marginalkosten auf Endgeräten wird von einer Theorie zur Realität. Ein oft zitierter Vergleich: Die Hardwarekosten eines hochwertigen KI-PCs betragen etwa 10.000 bis 20.000 Yuan, während die Token-Kosten eines Teams, das täglich die Cloud-API hochfrequent aufruft, in wenigen Monaten diesen Betrag übersteigen können.
Einige in der Branche haben die Inferenzgrenzen zwischen lokal und in der Cloud in drei Linien zusammengefasst.
Die erste Linie ist die Modellgröße: Modelle mit 120 Milliarden Parametern oder weniger können bereits lokal ausgeführt werden; die zweite Linie ist die Sicherheit und Geheimhaltung: Szenarien, die Privatsphäre und sensible Daten betreffen, müssen lokal verarbeitet werden; die dritte Linie ist die Kommerzialisierung: In Agent-Szenarien mit hohem Token-Verbrauch kann die lokale Inferenz die Cloud-Abrechnung nach Verbrauch vollständig vermeiden.
Auf der Grundlage dieser drei Linien bildet sich eine Einschätzung: In Zukunft werden 80 % der Inferenzszenarien auf das Endgerät verlagert.
Diese Einschätzung wird von immer mehr Beweisen gestützt. Omdia-Daten zeigen, dass durch eine verteilte Architektur, die die Arbeitslast zwischen Endgeräten, Edge-Servern und der Cloud dynamisch verteilt, und indem 80 % der leichten Aufgaben lokal verarbeitet werden, kann die jährliche Cloud-Kosten für 100 Millionen Benutzer von 5,5 Milliarden US-Dollar auf 1,2 Milliarden US-Dollar gesenkt werden, was eine Einsparung von über 4,3 Milliarden US-Dollar bedeutet, wenn man von 50 KI-Anfragen pro Person pro Tag und einem typischen Einmalpreis von 0,003 US-Dollar ausgeht.
Für Unternehmen und Entwickler von Agent-Anwendungen ist dies eine nicht zu vernachlässigende Summe; für Privatnutzer senkt die Rechenleistung auf Endgeräten auch die Einstiegshürde für die KI-Nutzung. Das tägliche Aufrufen von Agent-Fähigkeiten zur Durchführung von fertigen Inferenzarbeiten und stabilen Prozessen erfordert nicht mehr den Kauf teurer Cloud-Rechenleistungskontingente, und man muss sich auch keine Sorgen um eine riesige Rechnung am Monatsende machen. Sobald man ein Gerät kauft, ist die KI-Fähigkeit bereits lokal verfügbar.
Auf der Grundlage der Token-Ekonomie wird die Popularität der Rechenleistung auf Endgeräten zunehmend bestätigt.
Beispielsweise hat NVIDIA den PC-Superchip RTX Spark für Windows vorgestellt, und Hersteller ganzer Geräte wie Dell, Lenovo, HP, Asus und Acer haben an der ersten Produktliste teilgenommen. Ein gemeinsames Verkaufsargument dieser Produkte ist: Die KI wird lokal ausgeführt, und es werden keine Cloud-Token-Kontingente verbraucht.
Chinesische Hersteller reagieren ebenfalls schnell. Bei der Implementierung der Rechenleistung auf Endgeräten war die Veröffentlichung des Great Wall N90 Pro ein konkretes Marktereignis. Unterstützt durch den bereits in Massenproduktion befindlichen M50-Chip mit Speicher-Rechner-Integration kann das 35B-Modell lokal reibungslos laufen. Dies bedeutet auch,