Die Eskalation der "KI - Kämpfe auf Endgeräten" im Jahr 2026: Worum konkurrieren Apple, Google und Co.?

2026 werden die großen seitenseitigen Modelle von der einfachen Funktionsfähigkeit zur praktischen Nutzbarkeit übergehen, wobei die Hardware-Software-Koordination zum Schlüsselfaktor wird.

Im ersten Halbjahr 2026 hat das Edge-Großmodell einen neuen Abschnitt erreicht: Die Modelle werden weiterhin kleiner und leichter, aber die reine Komprimierung reicht nicht mehr aus. Der Schlüssel für die Zukunft besteht darin, das Modell mit der unteren Softwareebene, den Chips und den spezifischen Geräteszenarien zu kombinieren, um von "funktionsfähig" zu "nützlicher" zu gelangen.

Diese Veränderung findet derzeit hauptsächlich bei führenden Herstellern statt. Auf der Apple Worldwide Developers Conference (WWDC2026) am 9. Juni hat Apple stark in Edge-Großmodelle investiert und die AFM3-Serie vorgestellt.

Apples Ansatz besteht darin, von Grund auf eine rechenleistungseffiziente Struktur für Edge-Geräte zu entwickeln. Sie hat das Edge-Hauptmodell AFM 3 Core Advanced mit etwa 20 Milliarden Parametern vorgestellt. Indem das Modell selbst vergrößert wird und eine sparse Architektur verwendet wird, werden nur ein Teil der Parameter bei jeder Inferenz aktiviert.

Dies ist Apples Lösung. Im gesamten Markt gibt es jedoch immer noch verschiedene Ansätze und Divergenzen bei der Implementierung von Edge-Großmodellen.

Einige Unternehmen verfolgen den "Distillations-Ansatz": Sie übertragen die Fähigkeiten eines leistungsstarken Großmodells auf ein kleineres Modell und installieren dieses kleine Modell dann auf Geräten, um die Effekte eines fortschrittlichen Großmodells mit geringeren Kosten zu erreichen.

Googles Gemini Nano ist ein typisches Beispiel. In frühen Gemini-Technologieberichten wurde erwähnt, dass Gemini Nano aus einem größeren Gemini-Modell distilliert wurde und für die Edge-Bereitstellung konzipiert ist. Es kann direkt auf Android-Smartphones wie Pixel und Samsung Galaxy laufen.

Andere Hersteller wählen dagegen einen Ansatz, bei dem das Modell selbst neu gestaltet wird, um den Einschränkungen von Edge-Geräten gerecht zu werden. Unter den begrenzten Ressourcen an Rechenleistung, Speicher und Energieverbrauch wird versucht, die Fähigkeitsdichte pro Parameter des Edge-Modells zu maximieren.

Dieser Ansatz zielt auf "klein und stark" Edge-Großmodelle ab: Das Modell muss klein genug sein, um auf verschiedene Endgeräte wie Smartphones, PCs, Autosysteme und Roboter zu passen. Gleichzeitig muss es leistungsfähig genug sein, um Edge-Agenten, Echtzeitinteraktionen und lokale Intelligenzerlebnisse zu unterstützen.

Nehmen wir als Beispiel Mianbi Intelligence, ein chinesisches Unternehmen, das sich auf Edge-Großmodelle konzentriert. Es betont seit langem die Komprimierung von Modellen und die Verbesserung der Fähigkeitsdichte. Seit der MiniCPM-Serie versucht es, mit einer kleineren Parameteranzahl möglichst starke Modellfähigkeiten zu realisieren.

Bis jetzt hat Mianbi Intelligence beschlossen, das Modell weiterhin entlang des Low-Bit-Ansatzes zu komprimieren. Zusammen mit der Tsinghua-Universität und der OpenBMB-Open-Source-Community hat es BitCPM-CANN veröffentlicht, das bereits auf der Huawei Ascend-Plattform das Trainingsschema für ein 1,58-Bit-Dreistufen-Großmodell validiert hat.

Mianbi Intelligences Ansatz besteht darin, dass die Parameter eines Großmodells in einem Computer normalerweise viel Speicherplatz und Rechenleistung benötigen. Indem man diese Parameter nun mit nur sehr wenigen Bits darstellt, kann das Modell Rechenleistung und Speicherplatz sparen.

Darüber hinaus hat diese Komprimierung dazu geführt, dass die Verbesserung von Edge-Großmodellen nicht mehr nur auf der Ebene der Modellalgorithmen stattfindet, sondern auch auf der Ebene der Chip-Anpassung beginnt.

Bei einer kürzlich stattgefundenen Besprechung mit Mianbi Intelligence hat der CEO Li Dahai erklärt: "Seit Anfang dieses Jahres haben wir, wie auch die Branche insgesamt, die Berechnungen auf chinesische Chips verlagert. Wir übertragen auch schrittweise unsere Trainingsarbeiten auf chinesische Chips und Cluster."

Dies deutet auch auf einen gemeinsamen Trend bei Edge-Großmodellen hin: Je näher das Modell an den Endgeräten ist, desto stärker ist es von der Zusammenarbeit zwischen Hardware und Software abhängig. Es reicht nicht aus, das Modell einfach kleiner zu machen. Das Modell muss sich an die Rechenweise der Chips anpassen, und die Chips müssen weiterhin für die Inferenz von Großmodellen optimiert werden.

In der Branche gibt es bereits immer mehr ähnliche Initiativen. Ob Apple mit Core AI um den Apple Silicon-Chip herum, oder Hersteller wie Qualcomm, MediaTek und Intel - alle bauen ihre eigenen Edge-AI-Plattformen auf.

Der Wettbewerb im Bereich Edge-AI verschiebt sich von der Konkurrenz um die Parameteranzahl und die Komprimierungsrate hin zu einer ganzheitlichen Zusammenarbeit zwischen Modell, Chip, System und Applikation.

Allerdings bilden sich zwar Konsens über Edge-Großmodelle, aber auch Differenzen werden sichtbar.

Sobald die Modelle in reale Geräte wie Smartphones, Autos, PCs und Roboter integriert werden, rückt der Fokus der Branchendiskussion auf die Kernfähigkeiten und die Grenzen von Edge-Fähigkeiten: Welche Kernaufgaben sollte ein Edge-Modell übernehmen? Wie sollte die Aufgabenteilung zwischen lokaler und cloudbasierter Intelligenz aussehen? Welche Hindernisse müssen Edge-Modelle überwinden, um von "funktionsfähig" zu "nützlich" zu gelangen?

Im Zusammenhang mit diesen Fragen hat der CEO von Mianbi Intelligence, Li Dahai, seine Einschätzungen und Überlegungen zur Implementierungsphase von Edge-Großmodellen geteilt.

01. Apple setzt auf Edge: Ein verspätetes "Systemprojekt"

Frage: Apple hat 2026 weiterhin in Edge-Großmodelle investiert und das Edge-Großmodell AFM3 Core Advanced vorgestellt, was Edge-AI erneut zum Fokus der Branche gemacht hat. Wie bewerten Sie die Fortschritte bei der Implementierung von Apples Ansatz? Wie sehen Sie die Art und Weise, wie Apple über den "Sparse-Ansatz" in das Edge-Geschehen eintritt? Welchen Wettbewerbsdruck bedeutet dies für Hersteller von Android-Smartphones?

Li Dahai: Ich denke, man kann dies aus mehreren Perspektiven betrachten.

Erstens wurde Apples Strategie zur Zusammenarbeit zwischen Edge und Cloud bereits im Juni 2024 bekannt gegeben. Die schrittweise Umsetzung hat bis jetzt etwas später als erwartet stattgefunden. Dies zeigt, dass Edge-Großmodelle kein einfaches Modellproblem sind, sondern ein Systemprojekt, das Chips, Systeme, Software-Ökosysteme und spezifische Szenarien umfasst.

Zweitens zeigt Apples Eintritt in das Gebiet der Edge-Großmodelle, dass diese Richtung grundsätzlich richtig ist. Der Wert von Edge-Modellen liegt nicht nur darin, ein kleines Modell auf ein Smartphone zu installieren, sondern es liegt darin, die Interaktionsweise zwischen Menschen und Geräten wirklich zu verändern. Smartphones sind die am häufigsten verwendeten Endgeräte und am nächsten an persönlichen Daten und Szenarien. Daher eignen sie sich ideal, um einen Teil der hochfrequenten, Echtzeit- und datenschutzsensitiven Intelligenzfähigkeiten zu tragen.

Drittens ist dies nicht nur ein Wettbewerb zwischen Apple und Android. Der Schlüssel liegt nicht in der Betriebssystemplattform, sondern darin, wer die passenden Chips, effizienteren Modelle und klare Produkt-Szenarien finden kann.

Tatsächlich haben chinesische Smartphonehersteller diesen Bereich schon frühzeitig beobachtet und intensiv mit Modell- und Chipunternehmen zusammengearbeitet. Meiner Meinung nach haben alle eine gute Vorstellung von Edge-Intelligenz, und die Unterschiede sind nicht so groß, wie es die Außenwelt vermutet. Aus Sicht von Mianbi haben wir seit 2024 eine Edge-Strategie entwickelt und kontinuierlich mit chinesischen Endgeräteherstellern zusammengearbeitet.

Frage: Apple setzt auf Edge-Großmodelle, und Hersteller von High-End-Android-Smartphones suchen ebenfalls ihre eigenen Edge-AI-Strategien. Welche Fähigkeiten sind für die Erstellung eines wirklich unterschiedlichen Benutzererlebnisses mit Edge-Großmodellen entscheidend?

Li Dahai: Aus der Erfahrung von Mianbi Intelligence betrachten Smartphonehersteller bei der Bewertung von Edge-Modellen mehrere konkrete Aspekte.

Zunächst geht es um die Fähigkeiten des Modells und die Implementierungskosten. Ein Edge-Modell kann nicht nur anhand der Parameteranzahl oder einer Rangliste bewertet werden. Da es auf Geräten wie Smartphones laufen muss, müssen Fähigkeiten, Geschwindigkeit, Energieverbrauch und Speicherplatzbedarf gleichzeitig berücksichtigt werden. Ein zu schwaches Modell bringt dem Benutzer keinen Nutzen, während ein zu schweres Modell zu Energieverschwendung, Überhitzung und instabilen Benutzerexperienzen führt.

Zweitens ist die Anpassungsfähigkeit an Edge-Chips wichtig. Die AI-Fähigkeiten auf Smartphones müssen schließlich auf den Chips laufen. Modellunternehmen können nicht einfach warten, bis die Hardware feststeht und dann eine Anpassung vornehmen. Es ist besser, schon frühzeitig mit Chipherstellern über die Modellstruktur, die Inferenzmethode, den Speicherplatzbedarf und den Energieverbrauch zu sprechen. Beispielsweise arbeitet Mianbi mit einigen Edge-Chipherstellern, einschließlich Qualcomm, zusammen und führt in einigen Bereichen eine vorabige gemeinsame Optimierung durch.

Drittens ist die Inferenz-Effizienz wichtig. Endgeräte wie Smartphones und Autos haben hohe Anforderungen an Energieverbrauch und Stabilität. Benutzer akzeptieren keine AI-Funktionen, die zwar leistungsfähig erscheinen, aber beim Gebrauch viel Energie verbrauchen, überhitzen oder unzuverlässig reagieren. Daher hat derjenige, der bei ähnlichen Ergebnissen die Benutzeroberfläche mit weniger Energieverbrauch und kürzerer Latenzzeit realisieren kann, einen Wettbewerbsvorteil.

Apples Eintritt in das Gebiet der Edge-Großmodelle wird die Reife des gesamten Ökosystems beschleunigen. Für Hersteller von High-End-Android-Smartphones wird der Druck größer, aber es gibt auch Chancen. In Zukunft wird die Wettbewerbsfähigkeit von der effizienten Zusammenarbeit zwischen Chip, Modell, System und Szenario abhängen. Wer diese Elemente miteinander verbindet, hat bessere Chancen, Edge-AI in ein wirklich spürbares Benutzererlebnis umzuwandeln.

02. Engpässe bei der Edge-Implementierung: Die Kombination von Modell und Chip

Frage: Wie weit ist die Implementierung von Edge-Modellen im Jahr 2026 fortgeschritten? Welche Engpässe verhindern derzeit die weitere Massenverwendung von Edge-Modellen?

Li Dahai: 2025 hat Mianbi Intelligence die Massenproduktion von Edge-Modellen in Autoszenarien erreicht, was ein wichtiges Meilenstein war. Dieses Jahr ist es bereits das zweite Jahr der Implementierung, und die Wachstumsrate der Edge-Modelle ist sehr hoch.

Der größte Engpass bei der weiteren Implementierung von Edge-Modellen ist jedoch, wie bereits erwähnt, die Kombination von Modell und Chip.

Edge-Szenarien unterscheiden sich von Cloud-Szenarien. Sie haben hohe Anforderungen an Energieverbrauch, Rechenleistung, Bandbreite, Kosten und Echtzeitfähigkeit. Die Fähigkeiten des Modells selbst sind wichtig, aber ohne passende Edge-AI-Chips ist es schwierig, viele Fähigkeiten kostengünstig und energieeffizient in reale Geräte zu integrieren.

Wir sind daher sehr gespannt auf die Massenproduktion einer neuen Generation chinesischer Edge-AI-Chips mit integrierter Speicher- und Rechenfunktion. Derzeit werden einige relevante Chips entwickelt, und sobald sie in der Massenproduktion eingesetzt werden, können sie auf dem Gebiet von Energieverbrauch, Rechenleistung und Bandbreite konkurrenzfähigere Edge-AI-Fähigkeiten bieten. Basierend auf diesen Chips wird die Edge-Anwendung schneller expandieren.

Darüber hinaus glauben wir, dass die beste Form von Edge-AI nicht darin besteht, alle Fähigkeiten lokal zu haben oder vollständig auf die Cloud zu verlassen, sondern in einer Zusammenarbeit zwischen Edge und Cloud.

Beispielsweise sollte die Verwaltung von Kontextinformationen möglichst lokal erfolgen. Auch einige wichtige, hochfrequente und datenschutzsensible Inferenzaufgaben sollten bevorzugt lokal durchgeführt werden, während komplexere und anspruchsvollere Aufgaben an die Cloud delegiert werden können.

In einem solchen Modell wird das Edge-Modell natürlicher in den Alltag der Benutzer integriert. Es muss nicht unbedingt als ein offensichtliches "Großmodellprodukt" erscheinen, sondern kann in konkrete Szenarien wie Autos, Smartphones, PCs, tragbare Geräte und intelligente Heimgeräte eingebettet werden, um ein direkt spürbares Intelligenzerlebnis zu bieten. Mit der weiteren Reife von Chips, Modellen und Anwendungsökosystemen wird die Implementierung von Edge-Modellen beschleunigt, und in diesem Jahr werden wir viele reale Anwendungen sehen.

Frage: Chinesische AI-Chips wurden in der Vergangenheit hauptsächlich für die Inferenz verwendet. Das Training von Großmodellen erfordert jedoch höhere Anforderungen an die Softwareebene, die Stabilität von Clustern, die Kommunikationseffizienz und die Genauigkeit. Aus Sicht eines Modellunternehmens: Welche Schwierigkeiten muss Mianbi Intelligence bei der Übertragung des Trainings auf chinesische Chips überwinden?

Li Dahai: Wir arbeiten derzeit in zwei Richtungen.

Erstens arbeiten wir kontinuierlich mit chinesischen Chipherstellern bei realen Trainingsaufgaben zusammen. Modellunternehmen stoßen bei der Trainingsphase auf viele konkrete Probleme, wie die Leistung von Operatoren, die Kommunikationseffizienz, die Stabilität von Clustern und die Genauigkeitsanpassung. Diese Probleme treten nur bei realen Großmodell-Trainings auf. Durch kontinuierliches Feedback, Optimierung und Validierung können Modell- und Chipunternehmen zusammen das chinesische AI-Software-Ökosystem weiter entwickeln.

Zweitens arbeiten wir an der Anpassung der unteren Softwareebene. Das Problem mit chinesischen Chips liegt nicht nur in der Leistung eines einzelnen Chips, sondern auch in der Inkompatibilität der Softwareebene. Unterschiedliche Chips haben unterschiedliche Kompilierungs-, Operator-, Kommunikations- und Scheduling-Systeme. Wenn ein Modellunternehmen jedes Mal, wenn es einen neuen Chip einsetzt, eine neue Anpassung vornehmen muss, ist dies teuer und ineffizient.

Deshalb nehmen wir auch an der Entwicklung eines gemeinsamen Software-Ökosystems teil, wie beispielsweise FlagOS, das von der Zhiyuan Research Institute initiiert wurde. Das Ziel ist, einen Teil der wiederholten Anpassungsarbeiten zu standardisieren, damit unterschiedliche chinesische Chips bei der Modelltraining und -inferenz klarere Schnittstellen und Kooperationsmethoden haben. Diese Arbeit ist für das chinesische Ökosystem der künstlichen Intelligenz sehr wertvoll und entwickelt sich schnell.

Mianbi Intelligence ist sowohl ein Großmodellunternehmen als auch in der Anpassung von Operatoren und der Optimierung der unteren Ebene sehr erfahren. Deshalb sind wir in beiden Richtungen aktiv beteiligt. Einerseits helfen wir chinesischen Chips und der Softwareebene, Probleme zu finden und zu lösen, indem wir reale Modelltrainingsaufgaben durchführen. Andererseits nehmen wir an der systematischen Entwicklung des chinesischen AI-Software-Ökosystems teil.

Darüber hinaus ist die Übertragung des Trainings auf chinesische Chips komplexer als die Übertragung der Inferenz. Die Inferenz hängt hauptsächlich von Durchsatz, Latenzzeit und Kosten ab, während das Training auch die Genauigkeit, die Stabilität und die Langzeitleistung überprüfen muss.

Deshalb verwenden wir kleine Modelle, um die Trainingsergebnisse von Großmodellen vorherzusagen und die Testergebnisse auf chinesischen AI-Chips wie Huawei mit denen auf der NVIDIA-Plattform abzugleichen, um zu überprüfen, ob die Trainingsgenauigkeit zuverlässig ist. Solche Tests können vor dem Massentraining die Probleme auf der unteren Ebene von Chips, Operatoren und der Softwareebene aufdecken.

Frage: Im ersten Halbjahr 2026 hat das "Doubao-Smartphone" und andere Produkte die Aufmerksamkeit auf Edge-Intelligenz-Agenten gelenkt. Wie bewerten Sie die Veränderung der Mensch-Maschine-Interaktion durch Edge-Modelle und Edge-Intelligenz-Agenten?

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die „KI-Kämpfe auf Endgeräten“ im Jahr 2026 eskalieren – worum konkurrieren Apple, Google und Co.?

01. Apple setzt auf Edge: Ein verspätetes "Systemprojekt"

02. Engpässe bei der Edge-Implementierung: Die Kombination von Modell und Chip