Was ist das Endspiel der AI-Smartphones: "Bildschirmlesen" oder "Dialog"?
In letzter Zeit haben zwei "AI-Shows" in der Technologiebranche nacheinander die sozialen Medien in Brand gesteckt.
Jenseits des Ozeans haben Apple und Google am 12. Januar (örtliche Zeit) angekündigt, zusammenzuarbeiten und Siri mit Googles Gemini auszustatten. Doch anstatt direkt Gemini die Steuerung der Apps auf dem Smartphone zu überlassen, versteht Siri zunächst die Absicht des Nutzers und ruft dann die entsprechende App auf. Mit anderen Worten, die KI fungiert lediglich als "Disponent". Diese Vorgehensweise ist sehr typisch für Apple.
Andererseits ist die Situation im Inland viel aufregender. Das Doubao-AI-Smartphone von ByteDance hat für Furore gesorgt. Die KI kann für Sie Taxen buchen, einkaufen und Tickets bestellen, wie ein wahrer "Alleskönner-Assistent". Diese Strategie ist sehr typisch für die Internetbranche.
Sie sehen, obwohl es sich um AI-Smartphones handelt, unterscheiden sich die Umsetzungsmethoden völlig. Hinter diesen Unterschieden verbergen sich eigentlich zwei technische Ansätze:
Der erste Ansatz besteht darin, dass die KI und die Apps "sprechen" lernen, indem sie über standardisierte Schnittstellen direkt die Funktionen der Apps aufrufen. Dieser Ansatz wird als A2A (Agent-to-Agent) bezeichnet. Bei diesem Weg müssen alle Beteiligten zusammenkommen und Regeln festlegen. Es geht langsam, aber es ist sicherer.
Der andere Ansatz besteht darin, der KI einen "universellen Schlüssel" zu geben, um über Systemrechte den Bildschirm zu "lesen" und die App zu simulieren. Dieser Ansatz wird als GUI (Graphical User Interface) bezeichnet. Dieser Weg ist einfach und direkt, geht schnell, birgt aber möglicherweise Risiken.
Hinter diesen Entscheidungen steckt nicht nur eine technische Wahl. Im Wesentlichen handelt es sich um eine Wettscheibe verschiedener Unternehmen, die auf Basis ihrer eigenen Interessen und Ökosystemposition die Zukunftsmacht anstreben. Welches Modell die Nutzer gewinnt, wird wahrscheinlich darüber entscheiden, wie wir in der nächsten Dekade mit unseren Geräten umgehen werden.
Zwei Lösungen, zwei Logiken
Um diese Partie verstehen zu können, müssen wir zunächst die Logik hinter diesen beiden Ansätzen verstehen.
Der GUI-Ansatz setzt auf "Schnelligkeit".
Ursprünglich nutzte der KI-Assistent eine Funktion namens "Barrierefreie Dienste" im Android-System. Diese Berechtigung wurde ursprünglich für Menschen mit Sehbehinderungen entwickelt, damit sie ihr Smartphone per Sprachbefehl bedienen können. Jetzt kann die KI über diese Berechtigung die Texte und Symbole auf dem Bildschirm "lesen" und dann die Fingerbewegungen eines Menschen simulieren, um verschiedene Apps zu bedienen. Kurz darauf gab es auf dem Markt einen noch "fortgeschritteneren" Ansatz, bei dem der KI-Assistent die System-Signaturberechtigung des Smartphone-Herstellers erhielt, um über Prozessinjektion die App-Simulation reibungsloser und unbemerkt durchzuführen.
Der Vorteil dieser Vorgehensweise ist offensichtlich - es umgeht alle App-Hersteller und bringt die KI-Fähigkeiten direkt in das bestehende App-Ökosystem. Für Hersteller, die sich eilig in der KI-Welle einen Platz sichern möchten, ist dies der schnellste Weg zur Validierung.
"Wenn die Nutzer es gewohnt sind, alle Apps über einen KI-Assistenten zu bedienen, wird dieser Assistent zur neuen Traffic-Eingang. Der dahinterstehende kommerzielle Wert ist ziemlich attraktiv." sagte Lin Liang, ein Investor, der sich für Internetunternehmen interessiert.
Allerdings kann die Nutzung des GUI-Ansatzes für die Nutzer derzeit "manchmal funktionieren, manchmal nicht".
"Der GUI-Ansatz ist stark von der Stabilität der App-Oberfläche abhängig", sagte Chen Gang, ein App-Entwickler. "Wenn die App das Design der Oberfläche ändert, beispielsweise die Position einer Schaltfläche verändert, kann die KI möglicherweise die falsche Position "anklicken", und der gesamte Aufgabenablauf bleibt hängen."
Chen Gang wies darauf hin, dass diese Instabilität sich verstärkt, wenn der Aufgabenablauf länger wird. Daten zeigen, dass bei einer Aktion mit fünf Schritten, selbst wenn die Erfolgsrate jedes Schritts 90 % beträgt, die endgültige Erfolgsrate der gesamten Aufgabe möglicherweise auf 59 % sinkt.
Quelle / pexels
Abgesehen von der Unsicherheit bei der Nutzung machen sich viele Nutzer Sorgen über die Sicherheits- und Privatsphäre-Risiken. Im GUI-Modus muss die KI den Bildschirm "lesen", um den Bildschirminhalt zu verstehen und dann die nächste Aktion zu entscheiden. Dies bedeutet, dass sie in Echtzeit Zugang zu den Bildschirminformationen benötigt. Obwohl die Hersteller versprechen, die Daten zu verschlüsseln oder nicht hochzuladen, können die Nutzer nicht umhin, sich Gedanken zu machen: In welchen Fällen werden die Nutzerdaten gesammelt, wie werden sie verwendet und wer ist dafür verantwortlich?
A2A ist ein völlig anderer Ansatz. Anstatt die KI den Bildschirm "sehen" zu lassen, wird für die KI und die verschiedenen Apps eine allgemeine "Sprache" geschaffen - nämlich eine standardisierte API-Schnittstelle.
Dies klingt etwas abstrakt. Stellen Sie sich folgendes Szenario vor: Sie sagen Ihrem Smartphone: "Buch mir einen Taxifahrt zum Flughafen." Der System-Agent versteht Ihre Anfrage und teilt direkt dem entsprechenden Agent mit: "Der Nutzer möchte zum Flughafen. Bitte bieten Sie eine Taxifahrt an." Der Agent der Fahrzeughailing-App erfüllt dann die Aufgabe innerhalb seiner eigenen Berechtigungen.
Das Herzstück von A2A ist "Zusammenarbeit". Ein Schlüsseldesign in diesem Ansatz ist das sogenannte "Doppel-Autorisierungssystem": Sowohl die Nutzer als auch die App-Anbieter müssen ihre Zustimmung geben.
So wird die Zuständigkeit klarer. Die Nutzer können für verschiedene Apps unterschiedliche Berechtigungsstufen festlegen. Beispielsweise können sie der KI erlauben, die Liefer-App zu lesen, um Preise zu vergleichen, aber die Bank-App nicht zugänglich machen. Bei riskanten Aktionen wie Überweisungen muss die Nutzerzustimmung bei jeder Ausführung zusätzlich eingeholt werden. Da der Datenfluss über klare Schnittstellen erfolgt und nachvollziehbar ist, kann auch im Falle eines Problems die Ursache ermittelt werden.
Warum wählen nicht alle Hersteller A2A?
Weil die Koordinationskosten sehr hoch sind. A2A erfordert, dass Betriebssystemhersteller und App-Entwickler gemeinsam ein standardisiertes Protokoll einführen. Ohne ausreichende Unterstützung von Apps zeigt sich der Wert von A2A nicht. Ohne einen klaren Mehrwert fehlt den Entwicklern die Motivation, sich anzupassen.
Der A2A-Ansatz ist daher unweigerlich ein "Langzeitkrieg". Er ist "langsam", wenn es um die Einigung über das Ökosystem und den Aufbau der Infrastruktur geht.
Jetzt ist die Logik der beiden Ansätze klar: Der GUI-Ansatz ist zwar mit gewissen Risiken verbunden, aber effizient und ermöglicht es den Herstellern, schnell die Machbarkeit von AI-Smartphones zu testen. A2A ist sicher, aber langsam und erfordert mehr Koordination und Investitionen. Sobald es erfolgreich ist, kann jedoch ein sichereres System aufgebaut werden.
Man könnte fragen, ob es nicht möglich sei, auch im GUI-Ansatz durch technische Mittel ein Stufen-System für die Berechtigungen zu implementieren. Theoretisch ist dies möglich, aber dann würde man den Vorteil der "schnellen Implementierung" gegenüber A2A verlieren und gleichzeitig höhere technische Kosten tragen.
Derzeitig wird in der Branche allgemein angenommen, dass der GUI-Ansatz als Wegbereiter dienen kann, da er sowohl die Vorteile als auch die Risiken der KI-Fähigkeiten deutlich macht. Letztendlich kommt es aber auf A2A an, denn nur wenn die beiden Bedingungen Sicherheit und Bequemlichkeit erfüllt sind, kann man langfristig erfolgreich sein. Wenn man sich außerhalb des chinesischen Marktes ansieht, wie entscheiden die globalen Technologiegiganten?
Die Strategien der Giganten hinter den verschiedenen Ansätzen
Im Mobiltelefonsegment haben die ausländischen Giganten fast alle sich für A2A entschieden und die API-Integration vorangetrieben.
Apple ist am direkten. Es hat das "App Intents"-Framework aktualisiert und verlangt, dass alle Apps, die auf die KI-Funktionen zugreifen möchten, API-Schnittstellen gemäß den von Apple festgelegten Standards bereitstellen müssen.
Der Weg von Google ist komplizierter. Einerseits fördert es die "AppFunctions API", um die Standards für die Interaktion zwischen KI-Assistenten zu vereinheitlichen. Andererseits setzt es stark auf die Anpassung verschiedener Apps, was ein langsamer Prozess ist.
Microsoft hat selbst das "AutoGen"-Framework für die Interaktion zwischen mehreren KI-Assistenten entwickelt und untersucht, wie verschiedene KI-Assistenten besser zusammenarbeiten können.
Obwohl OpenAI und Anthropic nicht direkt Mobiltelefone herstellen, sind die von ihnen entwickelten Funktionen "Function Calling" und "Tool Use" eigentlich die technischen Vorläufer von A2A. Laut den von Anthropic veröffentlichten Daten sind die aktiven MCP-Services von etwa 2.000 im März 2025 auf über 10.000 im Dezember gestiegen - eine erstaunliche Wachstumsrate.
Warum wählen sowohl Betriebssystem-Riesen wie Apple und Google als auch KI-Pioniere wie Microsoft und OpenAI den langsamen API-Ansatz?
Weil sie die Etablierer und größten Gewinner des bestehenden Systems sind.
Die Kerninteressen von Apple und Google liegen darin, ihre Plattformen zu wahren und die Entwickler zu stabilisieren. Der einfache Einsatz von GUI ohne die Zustimmung aller Beteiligten ist im Grunde eine Herausforderung an ihre Dominanz. Daher wählen sie unweigerlich das "kontrollierbare" A2A-System, um die KI-Fähigkeiten fest in der Hand zu halten und es als neues Instrument zur Stärkung der Ökosystemkontrolle zu nutzen.
Microsoft verfügt über die beiden Trumpfkarte Windows und Office. Das Herzstück seiner KI-Strategie ist die Steigerung der Produktivität und die Bedienung von Unternehmenskunden. Für diese Kunden ist Sicherheit und Stabilität die oberste Priorität. Sie können die Unsicherheit und Sicherheitsrisiken des GUI-Ansatzes nicht akzeptieren.
OpenAI, als "Waffenhändler" der KI-Technologie, möchte, dass sein Modell von möglichst vielen Apps "aufgerufen" wird. Daher muss es stabile und zuverlässige API-Schnittstellen anbieten, anstatt GUI-Tools, deren Ergebnisse nicht garantiert werden können.
Haben die ausländischen Giganten den GUI-Ansatz völlig aufgegeben? Nein.
Googles Gemini und Microsofts Copilot haben auf Mobiltelefonen die Funktion "Bildschirmfreigabe" eingeführt - damit können die Nutzer ihren Bildschirm an die KI senden, die KI kann den Bildschirm "sehen" und auf Fragen antworten, aber selbst keine Aktionen ausführen.
Die ausländischen Giganten testen den GUI-Ansatz hauptsächlich auf dem PC und beschränken ihn streng auf kontrollierte Umgebungen (z. B. Browser, Sandbox, Virtuelle Maschine).
OpenAI hat den Agenten mit GUI-Fähigkeiten auf den Atlas-Browser beschränkt und verbietet ihm ausdrücklich, Code auszuführen, Dateien herunterzuladen oder auf lokale Apps zuzugreifen. Anthropic hat Ende 2024 die Computer Use API veröffentlicht, aber die entsprechende Funktion ist bis heute nur für Entwickler in einer virtuellen Umgebung zum Testen verfügbar.
Die Vorgehensweise von Microsoft ist am repräsentativsten. Nachdem die Recall-Funktion wegen der häufigen Bildschirmfotos heftige Privatsphäre-Bedenken ausgelöst hat, hat es die Aktionen "sehen" und "tun" getrennt - Copilot Vision kann nur die vom Nutzer freigegebenen Apps "sehen" und Vorschläge geben, aber keine Aktionen ausführen. Der Copilot Actions, der die Fähigkeit zur Aktion hat, muss in einer separaten Sandbox-Umgebung ausgeführt werden.
Die ausländischen Giganten halten sich aus Gründen der "Erhaltung des bestehenden Systems" fest an den A2A-Ansatz. Die GUI-Tests bleiben auf die "Beta-Version" beschränkt und werden nicht an die breite Masse der Nutzer vermarktet.
Im Vergleich dazu ist die Situation auf dem chinesischen Markt komplexer. Unter den Giganten gibt es sowohl "Herausforderer" als auch "Etablisierte", und die Entscheidungen sind daher vielfältiger.
ByteDance verfolgt den GUI-Ansatz mit hohen Berechtigungen. Durch die enge Zusammenarbeit zwischen dem Doubao-Großmodell und ZTE Nubia hat es ein "AI-Smartphone" mit einem integrierten System-KI-Assistenten entwickelt, um die bestehenden Ökosystembarrieren zu umgehen und sich den Zugang zur nächsten Generation von Traffic zu sichern.
Alibaba, Huawei und OPPO haben alle den A2A-Ansatz verfolgt.
Alibabas Vorgehensweise ist direkt. Es hat ein eigenes, kontrollierbares API-System aufgebaut und den Super-Gehirn "Tongyi Qianwen" tief in die Kernbusiness wie Taobao, Alipay und Gaode integriert.
Huawei hat im HarmonyOS 6, das Ende 2025 veröffentlicht wurde, über das "Intention Framework" die A2A-Zusammenarbeit zwischen dem Smart-Agent "Xiaoyi" und mehr als zehn HarmonyOS-eigenen Apps realisiert.
OPPO hat sich auch mit führenden Apps wie Alipay zusammengeschlossen, um gemeinsam die branchenweiten Standards für A2A zu entwickeln.
Aber hinter diesen scheinbar gleichen Entscheidungen stecken verschiedene kommerzielle Überlegungen.
Für Alibaba ist diese Strategie "angreifend und verteidigend". Einerseits ist es als führende chinesische E-Commerce-Plattform wichtig, das riesige Transaktions-Ökosystem mit kontrollierbaren APIs zu schützen. Andererseits ist es nicht nur auf die Verteidigung ausgerichtet, sondern versucht auch, mit Tongyi Qianwen einen Zugang zu schaffen, damit die Nutzer mehr Transaktionen und Dienstleistungen innerhalb des Alibaba-Ökosystems tätigen können.
Huawei und OPPO möchten natürlich nicht nur Hardware-Hersteller bleiben, da sie sonst leicht "kanalisierbar" werden. Deshalb verfolgen sie neben dem A2A-Ansatz auch einen "Hybrid-Ökosystem"-Ansatz, der um ihr eigenes Betriebssystem oder Großmodell herum aufgebaut ist. In diesem System gibt es sowohl die standardisierte API-Aufrufe als auch tiefere System-Smart-Agenten. Das Ziel ist es, die Macht im Ökosystem zu erlangen und sich von einem "Geräteanbieter" zu einem "Regelgeber" des zukünftigen Ökosystems zu entwickeln.
Kurz gesagt, die meisten Hersteller im In- und Ausland haben sich für A2A entschieden. Der Unterschied besteht darin, dass die ausländischen Giganten es nutzen, um die bestehende Kontrolle zu stärken, während die