Der Kampf um große Modelle breitet sich auf die Edge-Seite aus: Eine Rechenleistungskrevolution, die die Industriestruktur neu formt
Im Jahr 2025, als Google das "Sonnenfang - Projekt" startete und OpenAI das "Sternentor" eröffnete, scheint die globale KI - Branche in einem Wettrennen um die "Rechenleistungsschlüsselstellung" in der Cloud zu rasen. Gleichzeitig vollzieht sich jedoch eine stille Revolution auf Endgeräten.
Im Mai erwarb OpenAI für 6,5 Milliarden US - Dollar das von Jonny Ive, dem ehemaligen Chefdesigner von Apple, gegründete KI - Hardwareunternehmen io und plant, Ende 2026 das erste bildschirmlose KI - Hardwareprodukt auf den Markt zu bringen. Im November prophezeite Elon Musk, dass herkömmliche Mobiltelefone in den nächsten 5 - 6 Jahren vollständig verschwinden werden und stattdessen Geräte als "Edge - Knoten für KI - Inferenz" auftreten werden. Im Dezember wagte ByteDance einen ersten Schritt mit dem Doubao KI - Smartphone, was wie ein Stein ins Wasser war und Wellen schlug.
Das Feuer der großen Modelle breitet sich von der "Hauptschlachtzone" der Cloud - Rechenleistung auf die "Kapillaren" von Milliarden Endgeräten aus. Ein Wettlauf auf der Endgeräteseite, der die zukünftige KI - Landschaft bestimmen wird, hat offiziell begonnen.
01. Epische Entwicklung der Rechentechnik treibt die Übergabe der Rechenleistungsschlüsselstellung an
Die Entwicklung der Rechentechnik hat niemals linear verlaufen, sondern wird von Paradigmenwechseln angetrieben:
1945 legte John von Neumann die "Gespeicherte - Programm - Theorie" vor, die die technische Grundlage für die allgemeine Rechentechnik legte.
1946, mit der Entstehung des elektronischen Computers ENIAC, begann die Ära der allgemeinen Rechentechnik. Die auf der CPU basierende Rechentechnik löste das Problem der "Existenz von Rechenleistung".
2006 veröffentlichte NVIDIA die CUDA - Architektur, die die GPU von der Grafikrendering - Domäne in die allgemeine Rechentechnik - Domäne führte. Seine parallele Rechenleistung war um mehr als 100 Mal höher als die der CPU, was das offizielle Eintreten der Ära der beschleunigten Rechentechnik markierte.
2012 senkte das erste auf der CUDA - Plattform trainierte neuronale Netzwerkmodell AlexNet die Fehlerrate bei der Bilderkennung im ImageNet - Datensatz von 26 % auf 15 %. Der Rechenleistungsbedarf war im Vergleich zur CPU - Lösung um 90 % niedriger, was die offizielle Einleitung der Ära des Deep Learning ankündigte.
Der Durchbruch der generativen KI im Jahr 2020 trieb die beschleunigte Rechentechnik auf eine neue Höhe. Die Entstehung von LLM (Large Language Model) und VLM (Visual Language Model) schuf den Bedarf an "kognitiver Rechenleistung".
Im Gegensatz zu herkömmlichen Aufgaben hat die Berechnung von großen Modellen einen extremen Bedarf an paralleler Verarbeitungsleistung und hohem Datendurchsatz. Sie stellt höhere Anforderungen an die Rechenleistung und die Bandbreite. Insbesondere muss das VLM - Modell visuelle und sprachliche Daten gleichzeitig verarbeiten, um einen geschlossenen Kreis von "visuelle Wahrnehmung - Sprachverständnis - Entscheidungsgenerierung" zu bilden, was die Entwicklung von Cloud - KI - Chips beschleunigte.
Die schnelle Iteration von großen Modellen brach das Monopol der Cloud - KI - Chips und förderte die kooperative Ökosystem von "Cloud - Training - Endgeräte - Bereitstellung". Die Cloud - Rechenleistung wird ständig erhöht, und die Cloud - Modelle entwickeln sich weiter in Richtung von Modellen mit einer sehr großen Anzahl von Parametern. Die Endgeräte - Modelle konzentrieren sich auf die extreme Kompression, um die beste Leistung bei begrenzter Rechenleistung zu erzielen. So hat sich ein kooperativer Modus von "Cloud - Training, Endgeräte - Bereitstellung" gebildet. Die Cloud fungiert als "Gehirn" der KI - Intelligenz und ist für das Training von großen Modellen, die globale Entscheidungsfindung und das Wissensmanagement verantwortlich. Die Endgeräte fungieren als "Nervenenden" der KI - Intelligenz und übernehmen Funktionen wie aktive Wahrnehmung, Entscheidungsfindung und Benutzerinteraktion.
Heute hat die Cloud - Rechenleistung die historische Wende von der allgemeinen Rechentechnik, die hauptsächlich auf der CPU basiert, zur intelligenten Rechentechnik, die auf der GPU zentriert ist, vollzogen. Laut Daten der internationalen TOP500 - Organisation hing die Rechenleistung von fast 90 % der TOP500 - Supercomputer im Jahr 2019 vollständig von der CPU ab. Bis 2025 war diese Zahl auf weniger als 15 % gesunken. Dies bedeutet, dass der Übergang der Rechenleistungsschlüsselstellung von Intel zu NVIDIA in sechs Jahren abgeschlossen wurde.
02. Die Endgeräteseite wird bald das neue Schlachtfeld für die Entwicklung der Künstlichen Intelligenz
Der ultimative Wert der KI liegt nicht in den Laborparametern, sondern in der Fähigkeit, die reale Welt zu verändern und in der Akzeptanzrate der Technologie in der gesamten Gesellschaft. Die hohe Latenz und die hohen Kosten der Cloud - Modellbereitstellung machen es schwierig, sie in Endgeräte - Szenarien wie der Industrie und dem Verbrauchermarkt anzupassen. Daher entstand die Modell - Distillations - Technologie, die als "kleine Modelle mit großer Weisheit" gefeiert wird. Diese Technologie komprimiert Modelle mit hunderten von Milliarden Parametern auf Modelle mit zehn oder hundert Milliarden Parametern. Bei Beibehaltung einer hohen Leistung werden die Modellgröße und die Rechenkomplexität erheblich reduziert, so dass die Modelle in Endgeräte - Szenarien wie KI - PCs, lokalen Protokoll - All - in - One - Geräten, KI - Smartphones und KI - Gateways bereitgestellt werden können.
Laut Prognosen von Frost & Sullivan wird der globale Markt für Endgeräte - KI im Jahr 2029 auf 1,2 Billionen Yuan ansteigen, was einem durchschnittlichen jährlichen Wachstum von 39,6 % entspricht. Die Penetrationsrate von Lenovo's KI - PCs hat bereits mehr als 30 % der Gesamtlieferungen von Lenovo - PCs erreicht. Die jährliche Verkaufszahl des intelligenten Konferenzgeräts Plaud hat die Million marke überschritten. Die Meta KI - Brille war zwei Tage nach ihrer Veröffentlichung ausverkauft, und 2026 sollen mehr als zehn Millionen Stück verkauft werden. Die Endgeräte - KI wird immer mehr zum Streifgebiet der Technologiegiganten.
Die Entwicklung der Endgeräte - KI in China hat natürliche Vorteile. Einerseits wird in der obersten Ebene der Staatspolitik große Beachtung geschenkt, andererseits gibt es einen riesigen Markt und zahlreiche Anwendungsfälle für Endgeräte - KI. Laut Prognosen von Frost & Sullivan wird der chinesische Markt für Endgeräte - KI im Jahr 2029 auf 307,7 Milliarden Yuan ansteigen, was einem durchschnittlichen jährlichen Wachstum von 39,9 % entspricht.
Politische Dokumente wie die Vorschläge für die "15. Fünfjahresplanung" und die "Richtlinien für die Umsetzung der 'Künstliche Intelligenz +'-Aktion" fordern klar, die "Künstliche Intelligenz +"-Aktion umfassend umzusetzen, um die Vorherrschaft in der industriellen Anwendung der Künstlichen Intelligenz zu erlangen und alle Branchen umfassend zu befähigen. Mit dem Ziel, bis 2030, dem Ende der "15. Fünfjahresplanung", die Penetrationsrate von intelligenten Endgeräten auf über 90 % zu bringen und den Branchenumsatz auf über 10 Billionen Yuan zu steigern, wird der Endgeräte - KI - Markt mit starker und bestimmter Dynamik für ein massives Aufblühen versehen. Die politischen Leitlinien mit "quantitativen Indikatoren" geben nicht nur den Unternehmen klare Richtungen für die Forschung und Entwicklung sowie die Marktforschung, sondern fördern auch die Entwicklung der Endgeräte - KI von "vereinzelten Pilotprojekten" hin zu "massiven Umsetzungen".
China ist der weltweit größte Hersteller von Konsumelektronik, Haushaltsgeräten und Automobilen, was einen riesigen Marktbedarf für Endgeräte - KI - Chips und Lösungen schafft. In China hat sich die weltweit vollständigste Wertschöpfungskette für Endgeräte - KI gebildet: Im Oberlauf bieten Chiphersteller wie Huawei Ascend, Horizon Robotics, Rockchip und Houmo Intelligence Hardware - Unterstützung. Im Mittellauf bieten Unternehmen wie Deepseek, Alibaba und iFlytek Algorithmusmodelle. Im Unterlauf sind Endgerätehersteller wie Honor, Lenovo und Xiaomi für die Produktumsetzung verantwortlich. So hat sich ein ökosystem gebildet, das schwer zu kopieren ist.
Die politische Unterstützung und der Marktbedarf schwingen in Einklang und werden den Wachstum des chinesischen Endgeräte - KI - Marktes beschleunigen. Sie werden auch dazu führen, dass große Modelle von der Cloud auf Milliarden Endgeräte wie Smartphones, PCs, Autos und Roboter verteilt werden.
03. Die Verlagerung großer Modelle und die Rechenleistung auf der Endgeräteseite treffen sich gegenseitig
Es gibt bereits "Killer - Anwendungen" für große Modelle in der Cloud: Die neuesten Daten zeigen, dass die wöchentliche Anzahl der aktiven Benutzer von ChatGPT 800 Millionen erreicht hat. Die monatliche Anzahl der aktiven Benutzer von Doubao und Deepseek beträgt 172 Millionen bzw. 145 Millionen. Dagegen ist die "Killer - App" für große Modelle auf der Endgeräteseite noch auf dem Weg.
Der Kern dieser Differenz liegt darin, dass einerseits die Leistung der Rechenleistungschips auf der Endgeräteseite unter den Beschränkungen von Energieverbrauch und Kosten die physikalische Grundlage für die Ausführung von Modellen auf der Endgeräteseite bestimmt. Andererseits bestimmt die Iteration der Quantisierungs - und Kompressionsfähigkeit der Modelle die softwareseitige Obergrenze der Modelle.
Wird die Machtwechselregel von der CPU zur GPU in der Cloud auch auf die Endgeräteseite übertragen?
Schauen wir uns zwei grundlegende Logiken an:
1. Die von KI geleitete Rechenleistung hat in der Cloud bereits stattgefunden
Wie bereits erwähnt, hat sich das Verhältnis von CPU zu GPU in der Cloud - Rechenarchitektur von 9:1 im Jahr 2019 auf 1:9 im Jahr 2025 verändert. Das Auftauchen von großen Modellen im Jahr 2020 hat offensichtlich diese Revolution der Rechenparadigmen beschleunigt. Stehen wir am Ende des Jahres 2025 und blicken in die Zukunft, wird sich die Rechenparadigma auf der Endgeräteseite auch an die neue Architektur in der Cloud anpassen, in der die KI - Rechenleistungschips die Hauptrolle spielen und die CPU eine unterstützende Funktion hat?
Ähnlich wie in der Cloud, wenn auch auf der Endgeräteseite die traditionellen Datenverarbeitungs-, Such-, Abfrage- und Empfehlungsfunktionen in Form von KI - Rechenleistung die Benutzererfahrung verbessern, werden die Benutzer ihre Stimme abgeben. Wenn man das Deepseek - Modell in einen PC oder ein Smartphone installiert, kann Deepseek direkt auf wichtige Arbeitsdateien auf dem Computer, Videos in der Smartphone - Galerie, Chatverläufe usw. zugreifen (da es keine Privatsphäre - und Latenzprobleme gibt). Dies hilft uns nicht nur, unsere Arbeit effizienter zu erledigen, sondern macht auch die Konversationen interessanter.
In der Cloud haben große Modelle die Spielregeln komplett verändert. Der sich immer schneller drehende KI - Fliegenschritt ist unaufhaltsam. Die Wiederholung der Geschichte in der Cloud auf der Endgeräteseite ist nur eine Frage der Technik.
2. Die Datenübertragung in Rechenzentren hat eine physikalische Obergrenze, die Endgeräte - KI ist keine Option, sondern eine Notwendigkeit
Elon Musk sagte in der Joe Rogan Podcast, dass die lokale Verarbeitung von Inferenz auf Edge - Knoten und die Zusammenarbeit mit Servern keine Option, sondern der einzige in der Architektur machbare Weg vorwärts ist.
Die Branche entwirft in der Regel die Netzwerke mit einem Bandbreitenbedarf von etwa 25 - 50 Mbps pro 4K - Streamingkanal auf Betriebsebene. Wenn man von einem konservativen Wert von 25 Mbps/ Benutzer und einer Gesamtbandbreite von 997 Tbps (d. h. 997.000.000 Mbps) der Unterseekabeln im Jahr 2023 ausgeht, kann theoretisch eine maximale Anzahl von etwa 39.880.000 (etwa 40 Millionen) Benutzern gleichzeitig 4K - Streams empfangen. Diese Anzahl von Benutzern reicht bei weitem nicht aus, um die aktuelle Anzahl von ChatGPT - Benutzern zu unterstützen, geschweige denn die Anzahl von Benutzern von Super - Apps wie WeChat. Daher ist es unrealistisch, dass die gesamte Rendering - und Rechenleistung auf der Serverseite durchgeführt wird, da dies eine unrealistisch hohe Datenübertragungsrate erfordern würde und möglicherweise die globale Bandbreite überschreiten würde. Deshalb ist die Endgeräte - KI keine Wahlmöglichkeit, sondern eine Notwendigkeit.
Zusammenfassend lässt sich sagen, dass der Machtwechsel von der CPU zur GPU in der Cloud im Wesentlichen die Selektion der Rechenparadigmen durch "Effizienz und Anpassung an die Anwendungsfälle" ist. Diese beiden grundlegenden Logiken gelten auch auf der Endgeräteseite - die Nachfrage der Benutzer nach einer KI - verbesserten Erfahrung ist irreversibel, und die physikalische Obergrenze der Datenübertragung ist unüberwindbar. Daher ist die Veränderung der Rechenarchitektur auf der Endgeräteseite kein Zufall, sondern das notwendige Ergebnis der technologischen Entwicklung und der realen Bedürfnisse.
Symbiotische Evolution von Modellen und Rechenleistung auf der Endgeräteseite
1. Beschleunigte Implementierung von "geschlankten" Modellen
Die MoE - Architektur ermöglicht es, dass große Modelle "geschlankt" werden, während ihre Leistung aufrechterhalten bleibt. Dies beseitigt die architektonischen Hindernisse für die Bereitstellung auf Endgeräten. Die distillierten Modelle behalten eine hohe Leistung bei, während die Modellgröße und die Rechenkomplexität erheblich reduziert werden. Die CBQ - Quantisierungsalgorithmus von Huawei komprimiert das Modell auf 1/7 des ursprünglichen Volumens, während 99 % der Leistung beibehalten werden. Die inverse Distillations - Technologie von Alibaba lässt das 2B - Modell die Leistung des 7B - Modells um 8,8 % übertreffen. Der Durchbruch bei der Modellkompressionstechnologie senkt die Schwelle für die Rechenleistung und ermöglicht die Bereitstellung in Endgeräte - Szenarien wie AIPC, KI - Smartphones und innovativen KI - Hardwaregeräten.
2. Sprunghafter Anstieg des Rechenleistungsbedarfs auf der Endgeräteseite
Mit der breiten Anwendung von multimodalen großen Modellen wie VLM muss sowohl visuelle Details als auch Textlogik gleichzeitig verarbeitet werden. Die Komplexität der Verarbeitung von multimodalen Daten ist weit höher als die von reinen Textdaten, was zu einem sprunghaften Anstieg des Rechenleistungsbedarfs führt. Beispielsweise benötigt das Qwen