Auf dem Weg zur AGI besteht die GPU-Narration weiterhin, aber der Transformer kann die Tür nicht öffnen.
Nach der Veröffentlichung von Google Gemini 3 hat sich auf den Kapitalmärkten ein "Wippspiel" abgespielt.
Mittels des jährlichen Flaggschiffmodells stieg der Marktwert von Google vorübergehend um mehr als 500 Milliarden US-Dollar. Andererseits verlor der Rechenleistungshirte NVIDIA im gleichen Zeitraum 600 Milliarden US-Dollar an Wert.
Die enorme "Schere" scheint einen Wandel des Windes anzudeuten: Wenn TPU bei Gemini 3 erstaunliche Ergebnisse erzielt und sogar von Meta die Nachricht kursiert, dass es TPU kaufen will, lockert sich die Rechenleistungsmauer, die auf allgemeinen GPUs aufgebaut ist? Findet ein "Wandel" des Hardwareparadigmas von allgemeinen GPUs zu speziellen ASICs statt?
Bei der Tencent Technology 2025 Hi Tech Day warf Wang Sheng, Partner des Inno Angel Fund, diese Frage an die Vertreter einiger chinesischer Modelle und Infrastrukturen wie MuXi Co., Ltd., Silicon Flow und StepStar, und führte eine ultimative Prüfung über die "Stabilität oder Umwandlung" der Schlüsselinfrastruktur für AGI durch.
Sun Guoliang von MuXi Co., Ltd. meint, dass die Geschichte der GPU noch nicht zu Ende ist: "Das Shorting auf Wall Street könnte nur eine Art 'Preisstreit' sein."
Nach Sun Guoliang waren GPU und ASIC schon vor einigen Jahrzehnten in einem "Superstabilzustand". Er betont, dass in der gegenwärtigen Phase der schnellen Iteration der Modelle die Allgemeingültigkeit der GPU ihr größter Vorteil ist. "Es ist schwierig, ein spezielles Produkt in einem allgemeinen Szenario einzusetzen."
Als es um die Debatte zwischen "Open Source" und "Closed Source" ging, betonte Hu Jian von Silicon Flow, dass es sich hierbei um ein Spiel der Überlebensregeln für die "Zweit- und Drittplatzierten" handelt. "So wie Android gegen iOS antritt. Sobald DeepSeek auf den Markt kam, war die Branche in Aufruhr, und alle mussten folgen. Dies ist eine Tendenz, die durch niedrigen Wettbewerb vorangetrieben wird."
Hu Jian sagte, dass, wenn die Modelle nicht Open Source wären und die KI nur in den Händen einiger Unternehmen liegen würde, die Kunden auf diese Giganten angewiesen wären und dafür höhere Kosten und Nachteile in Kauf nehmen müssten.
Und auf der Algorithmenseite warf Zhang Xiangyu, der Chefwissenschaftler von StepStar, eine "Tiefenbombe" aus: Die bestehende Transformer-Architektur kann die nächste Generation von Agenten nicht unterstützen.
Zhang Xiangyu wies darauf hin, dass in einem Langtextumfeld die "Intelligenz" des Modells mit zunehmender Länge des Kontexts schnell abnimmt. Für einen allgemeinen Agenten, der ein unbegrenztes Kontextverstehen anstrebt, hat der einseitige Informationsflussmechanismus des Transformers inhärente Mängel. Die Forschung von StepStar zeigt, dass sich die zukünftige Architektur höchstwahrscheinlich hin zu "Non-Linear RNN" (nichtlineares rekurrentes Neuronales Netz) entwickeln wird.
Wichtige Punkte der Gäste:
Sun Guoliang (Senior Vice President von MuXi Co., Ltd.)
"Die heutige KI versucht mit Ingenieurwissenschaften die Grundlagenwissenschaft 'rückwärts' zu entwickeln. Bevor es in der Mathematik und der Gehirnforschung grundlegende Durchbrüche gibt, müssen wir mit GPUs eine Vielzahl von ingenieurtechnischen Versuchen durchführen."
Hu Jian (Mitbegründer und Chief Product Officer von Silicon Flow)
"Wenn die Modelle nicht Open Source sind und die KI nur in den Händen einiger Unternehmen liegt, müssen die Kunden auf diese Giganten angewiesen sein und dafür höhere Kosten und Nachteile in Kauf nehmen."
Zhang Xiangyu (Chefwissenschaftler von StepStar)
"Der heutige Transformer kann die nächste Generation von Agenten überhaupt nicht unterstützen. Die echte Herausforderung liegt nicht in der Rechenkomplexität, sondern im 'Intelligenzverlust' – je länger der Text, desto dümmer wird das Modell."
Im Folgenden finden Sie die Protokolle der Runde Tabelle, die ohne Änderung der ursprünglichen Bedeutung gekürzt und angepasst wurden
01
Die Prüfung des Billionenmarktwerts – GPU oder TPU?
Wang Sheng (Partner des Inno Angel Fund und Vorsitzender des Peking Frontier International Artificial Intelligence Research Institute): Lassen Sie uns zunächst über eine aktuelle aufregende Angelegenheit sprechen. Nach der Veröffentlichung von Google Gemini 3 stieg der Marktwert von Google um mehr als 500 Milliarden US-Dollar, und viele denken, dass Google wieder zurück ist. Gleichzeitig verlor NVIDIA mehr als 600 Milliarden US-Dollar an Wert.
Ich möchte Sie, Guoliang, fragen. Ihr Unternehmen ist einer der Spitzenanbieter chinesischer GPUs. Wie bewerten Sie diese Situation? Wird sich das Hardwareparadigma nun hin zu speziellen Chips wie TPU/NPU wandeln? Handelt es sich um reine Konkurrenz oder um eine Kombination aus Konkurrenz und Kooperation?
Sun Guoliang: Architekturen an sich haben keine Rangordnung. Wichtig ist es, das Szenario zu betrachten.
Wenn es um Stabilität oder Umwandlung geht, waren die beiden Architekturen GPU und ASIC (spezieller Chip) schon vor einigen Jahrzehnten in einem "Superstabilzustand". Im Bereich ASIC gibt es auch BPU, APU, VPU, DSP usw., die in ihren jeweiligen Bereichen Vorteile haben.
Aber heute befinden wir uns in einer Phase der schnellen Iteration der Modelle. In dieser Phase ist die Allgemeingültigkeit der GPU ihr größter Vorteil. Es ist schwierig, ein spezielles Produkt in einem allgemeinen Szenario einzusetzen, da es die Aufgaben nicht bewältigen kann.
Die Modelle werden heute sehr schnell aktualisiert, manchmal wöchentlich, spätestens monatlich. Aus unserer Sicht ist es noch lange nicht an der Zeit, dass ein Basismodell "konvergiert". In einem noch langen Zeitraum wird die schnelle Iteration der Modelle die Norm bleiben.
Ein weiteres Problem ist die Vergliederung der Szenarien. Die Anwendungsfälle der Kunden sind vielfältig und mannigfaltig. In diesen verstreuten Szenarien werden GPU und ASIC langfristig nebeneinander existieren, aber die allgemeinen GPUs werden eine bessere Generalisierungsfähigkeit haben.
Was die Schwankungen des Marktwerts von NVIDIA angeht, ist es durchaus möglich, dass dies eine gute "Preisstreitmethode" von Wall Street ist. Wall Street hat bereits entschieden, NVIDIA zur Weltmeisterschaftszahl eins zu machen, weil in der gegenwärtigen historischen Phase die Allgemeingültigkeit offensichtlich noch der Hauptstrom ist.
02
Die "Vernetzung" der Zwischenschicht – Konvergieren die Modelle?
Wang Sheng: Hu Jian, Ihr Unternehmen ist für die Verbindung zuständig, auf der linken Seite die Modelle, auf der rechten Seite die Rechenleistung. Führt dies zu einer Explosion der Arbeitsbelastung? Muss beispielsweise der Operator, der Compiler und der Rechengraph neu aufgebaut werden? Darüber hinaus, angesichts der Nutzung durch die Kunden, divergieren oder konvergieren die Modelle?
Hu Jian: Silicon Flow hat derzeit eine eigene Cloud. Der größte Unterschied zu anderen chinesischen AI-Infrastrukturen besteht darin, dass wir möglicherweise in großem Umfang chinesische Chips einsetzen, wie z. B. die von Moore und MuXi, um echte Dienstleistungen für die Kunden zu erbringen.
Insgesamt folgt das Verhalten der Modelle dem "80:20-Regel". Obwohl alle ein bis zwei Wochen ein neues Modell auf den Markt kommt, konzentrieren sich die Aufrufe hauptsächlich auf wenige Modelle wie DeepSeek, Qianwen, Kimi und GLM.
Obwohl sich die Modelle schnell ändern, befindet sich die Struktur der Modelle im Wesentlichen in einem "allmählichen Stabilzustand". Beispielsweise verwendet DeepSeek die MLA-Struktur, einschließlich der MQA-Struktur, die größtenteils Varianten des Transformers sind. Dies ist ein großer Vorteil für chinesische Chips.
Wenn die Szenarien vielfältig wären und nicht auf dem Transformer basieren würden, würde es die Welt von CUDA sein, da dessen Software-Stack bereits seit über zehn Jahren verbessert wird. Aber jetzt ist die Struktur relativ stabil, und unsere Kernaufgabe besteht darin, zu helfen, dass chinesische Chips mit NVIDIA-Chips der gleichen Spezifikation "End-to-End" vergleichbar sind.
Etwa 70 % der Arbeit ist relativ standardisiert. Beispielsweise bei der Quantisierung – früher haben die meisten chinesischen Chips nur INT8 unterstützt, aber jetzt verwendet DeepSeek FP8, daher sind die Lösungen für die Quantisierung allgemeingültig; außerdem bei der PD-Trennung und der gemeinsamen Übertragung von KVCache usw.
Die verbleibenden 30 % erfordern eine gemeinsame Optimierung in Bezug auf die Leistungsschwächen verschiedener Chips. Wenn ein Chip beispielsweise schwache Operatoren oder eine schwache Kommunikation hat, müssen wir die Operatoren fusionieren oder die Kommunikationsbibliothek optimieren. Insgesamt neigt die Struktur der Modelle zur Kontraktion, und diese Optimierungslösungen sind bei der Massenimplementierung und -anwendung hoch wiederverwendbar.
03
Die "Umwandlung" des Algorithmus – Ist der Transformer unbedingt das endgültige Paradigma für AGI?
Wang Sheng: Xiangyu, Sie sind ein Algorithmusexperte. Ich möchte direkt fragen: Ist der Transformer bereits das endgültige Paradigma für AGI? Derzeit gibt es in der Wissenschaftszweig auch Paradigmen wie RetNet und Mamba, die auf Linear Attention basieren. Haben sie einen Wert?
Zhang Xiangyu: Zunächst möchte ich eine Schlussfolgerung ziehen: Die gegenwärtige Modellarchitektur befindet sich tatsächlich in einem Zustand der Annäherung an die Stabilität, aber wir befinden uns wahrscheinlich am Vorabend eines großen Wandels.
Meine neuesten Forschungsergebnisse zeigen, dass der heutige Transformer uns nicht in die nächste Phase führen kann, insbesondere in der Agentenzeit.
Erkläre ich zunächst den ersten Teil. Tatsächlich haben sich die gegenwärtigen Architekturen größtenteils auf den Transformer konvergiert. Obwohl es verschiedene Anpassungen wie Linear Attention und Sparse Attention gibt, die sich auf die Effizienz konzentrieren, gibt es keine wesentlichen Unterschiede in der Modellierungsfähigkeit.
Außerdem haben wir einen großen Nebeneffekt festgestellt: Die echte Herausforderung bei Langtexten liegt nicht in der Rechenkomplexität, sondern darin, dass die "Intelligenz" des Modells mit zunehmender Länge des Textes schnell abnimmt.
Für einen allgemeinen Agenten sollte die Welt ein "unendlicher Strom" von Informationen sein – es ist unendlich lang, und alle Erfahrungen von klein auf sind im Kontext enthalten. Aber der heutige Transformer, unabhängig davon, wie viele Token er unterstützen soll, ist in meinen eigenen Tests nach etwa 80.000 bis 120.000 Token unbrauchbar. Selbst GPT-5 mag etwas besser sein, aber es wird schließlich degenerieren.
Was ist der wesentliche Grund dafür? Der Informationsfluss des Transformers ist einseitig.
Alle Informationen können nur von der (L-1)-ten Ebene zur L-ten Ebene fließen. Unabhängig von der Länge des Kontexts wird die Tiefe des Modells (L) nicht zunehmen oder nur geringfügig zunehmen (bei einigen neuesten Architekturvarianten).
Stellen Sie sich vor, dass das menschliche Gedächtnis einen starken Kompressionsmechanismus hat. Jedes Wort, das ich heute sage, ist eine Funktion aller Informationen, die ich in der Vergangenheit gesehen habe. Diese komplexe Funktion kann nicht durch ein neuronales Netzwerk mit einer konstanten Anzahl von Schichten dargestellt werden.
Wang Sheng: Ich verstehe Ihre Meinung. Haben Sie diese Ergebnisse bereits in der Forschung erzielt?
Zhang Xiangyu: Wir haben derzeit sehr positive Ergebnisse in einigen kleinen Experimenten erzielt. Die zukünftige Architektur sollte ein Transformer mit einem kurzen Fenster (zur Modellierung des Kurzzeitgedächtnisses) sein, der mit einem großen RNN (rekurrentes neuronales Netz, zur Modellierung des episodischen Gedächtnisses) kombiniert wird, und es sollte sich um "Non-Linear RNN" (nichtlineares RNN) handeln. Natürlich stellt dies eine enorme Herausforderung für die Systemeffizienz und die Parallelität dar und erfordert ein koordiniertes Design von Hardware und Software (Co-design).
04
Physikalische Grenzen – Die von KI beschleunigte "kontrollierte Kernfusion" und die Tausendkartencluster
Moderator/Wang Sheng: Xiangyu, Ihre Präsentation war sehr aufschlussreich. Ich muss mir das nochmal in Ruhe überlegen. Wir haben wenig Zeit, also möchte ich kurz über das Energieproblem sprechen, da wir in StarRing Energy investiert haben.
Nach der Detonation der Wasserstoffbombe hat die Forschung an "kontrollierter Kernfusion" begonnen. Dies dauert bereits seit über 80 Jahren. Früher hieß es immer, dass es noch 50 Jahre bis zum Erfolg dauern würde, aber in den letzten ein bis zwei Jahren hat sich die Situation dramatisch gewandelt. Optimistische Leute sagen, dass es noch 10 bis 15 Jahre dauern wird, realistischere Leute schätzen es auf 20 Jahre.
Wie ist das passiert? Dies hängt sehr eng mit der KI zusammen.
Heute stehen zwei große Probleme bei der Tokamak-Vorrichtung im Vordergrund:
Erstens wie man ein starkes Magnetfeld erhält, um das Plasma zu beschränken. Dies hängt von den Materialien ab, und hier kommt KI für die Wissenschaft ins Spiel – viele sind optimistisch, dass in den nächsten Jahren Hochtemperatur-Supraleitung oder Raumtemperatur-Supraleitung mit Hilfe von KI entwickelt werden können, was ein großes Problem lösen würde.
Zweitens die Kontrolle des Plasmas. Das Plasma hat Temperaturen von hunderten Millionen Grad Celsius, und wie kann man die unzähligen Spulen außerhalb kontrollieren? Dies ist eine "Schwarze Kiste", die man nicht öffnen kann. Früher war es sehr schwierig, Programme zu schreiben, aber jetzt, mit der KI, wird es durch die Simulation und verstärkte Lernmethode möglich.
Ohne Lösung des Energieproblems wird die gesamte menschliche Zivilisation eingeschränkt sein. Dies ist sehr aufregend.
Wir haben über die Chips gesprochen, jetzt möchte ich über das Netzwerk sprechen.
Ich möchte gerne wissen, wie groß die Netzwerke sind, die Sie tatsächlich für das Training und das Ausführen von Modellen nutzen – nicht Labor-Demos, sondern reale Ergebnisse.
Außerdem hat NVIDIA ein sehr komplexes Netzwerk, mit NVLink, NVLink Switch, Inf