Das Zeitalter der AI-Smartphones erreicht eine Wende: Zwischen Doubao-Handy und Qianwen hat Gemini einen dritten Weg gewählt.
Bei der Vorstellung des Samsung Galaxy S26 Ende letzten Monats haben Samsung und Google offiziell angekündigt, dass die auf Gemini basierte Screen Automation (Bildschirmautomatisierung) erstmals auf dem Galaxy S26 verfügbar sein wird.
Einfach ausgedrückt, kann Gemini direkt auf dem Mobiltelefonbildschirm Anwendungen bedienen: Apps öffnen, den Bildschirm erkennen, klicken und swipen, Text eingeben … eine Reihe von Benutzeroberflächen-Operationen ausführen und schließlich den Bestätigungsschritt an den Benutzer übergeben.
Bildquelle: Samsung
Ja, das klingt genau wie der Doubao-Mobiltelefon-Assistent auf dem Nubia M153 (lauternd „Doubao-Telefon“), der ebenfalls in der Lage ist, Menschen bei der Bedienung des Mobiltelefons zu „vertretend“ handeln und Anforderungen wie Bestellen von Lieferessen, Anrufen eines Taxis oder Online-Einkaufen mit einem Satz zu erfüllen.
Nach den Rückmeldungen aus ausländischen Medien und Foren ist diese Funktion endlich in der jüngsten Testversion aktualisiert worden.
Wir haben jedoch auch festgestellt, dass Google nicht alle Vorgehensweisen des Doubao-Mobiltelefon-Assistenten übernommen hat. Obwohl der technische Implementierungsweg ebenfalls auf einem GUI-basierten Agenten basiert, öffnet Gemini in Android eine lokale virtuelle Sandbox und beschränkt gleichzeitig die ersten APPs, für die die „Bedienung“ durch Gemini freigegeben wird, auf eine kleine Anzahl von Anwendungen.
Diese Vorgehensweise unterscheidet sich offensichtlich von der der chinesischen Hersteller. Man kann sogar den Doubao-Mobiltelefon-Assistenten von ByteDance und Qianwen von Alibaba vergleichen. Google hat sich für einen Weg entschieden, der sowohl aggressiv als auch konservativ scheint.
Lasst AI das Betriebssystem steuern, statt das Telefon zu übernehmen
Betrachtet man nur die Oberfläche der Funktion, lässt sich die „Bildschirmautomatisierung“ von Gemini leicht als eine Art „Doubao-Mobiltelefon-Assistent“ verstehen. Es kann ebenfalls für Sie Lieferessen bestellen, ein Taxi rufen und Bestellungen aufgeben und sieht auch wie ein AI-Agent aus, der das Mobiltelefon für Menschen bedienen kann.
Wenn man jedoch einen Schritt tiefer geht, wird deutlich, dass das Konzept von Google eigentlich etwas ganz anderes ist.
Die Logik des Doubao-Mobiltelefon-Assistenten ist sehr einfach: Die KI liest die Bildschirmpixel, erkennt Buttons und Eingabefelder wie das menschliche Auge und simuliert dann einen Fingerdruck. Der größte Vorteil dieser Methode ist die Allgemeingültigkeit – theoretisch kann jede APP bedient werden, da die KI nur den Bildschirm sieht.
Gemini ist offensichtlich „konservativer“. Bei der Ausführung von Aufgaben öffnet Gemini nicht direkt die Anwendungen auf Ihrem Mobiltelefonbildschirm, sondern eine lokale virtuelle Sandbox-Fenster in Android, in der die KI die Ziel-APP ausführt.
Der gesamte Prozess ist sichtbar, und der Benutzer kann die Aufgabe jederzeit abbrechen oder die Bedienung in jedem Schritt übernehmen.
Bildquelle: Android Central
Einfach ausgedrückt, ist die „Bildschirmautomatisierung“ von Gemini bei der Produktpositionierung kein allmächtiger Agent, der das Mobiltelefon beliebig bedienen kann, sondern eine von dem System streng eingeschränkte Automatisierungsfunktion.
Google hat auch die Anzahl der ersten Anwendungen, die die Automatisierung unterstützen, aktiv beschränkt. Derzeit sind hauptsächlich Dienste in den Bereichen Taxi, Lieferessen und Gastronomie freigegeben, und es werden nur Lyft, Uber, GrubHub, DoorDash, Uber Eats und Starbucks unterstützt.
Es gibt auch eine Beschränkung der „Benutzerbasis“. Derzeit können nur die Samsung Galaxy S26-Serie in der Testversion diese Funktion ausprobieren. Google plant auch nur, die Pixel 10-Serie zu unterstützen. Gleichzeitig haben kostenlose Gemini-Benutzer nur fünf Nutzungsmöglichkeiten pro Tag, Plus-Mitglieder 12, Pro-Mitglieder 20 und Ultra-Mitglieder 120.
Dabei spielen sowohl die Rechenleistung als auch die Bedenken der Benutzer hinsichtlich der „unkontrollierten Bedienung des Mobiltelefons“ durch die KI eine Rolle, insbesondere auf den Märkten in Europa und Amerika. Daher hat Google eine Berechtigungsisolierung vorgenommen, der Benutzer muss bei kritischen Schritten die Bedienung manuell ausführen, und die KI-Bedienung kann jederzeit unterbrochen werden.
Letztendlich ist dies jedoch nur eine Übergangsphase. Die Ambitionen von Google gehen weit über die Bedienung einiger bestimmter APPs hinaus.
Bildquelle: Google
Viele bemerken die GUI-Bedienungsfähigkeit von Gemini, aber übersehen etwas, das auf Systemebene in Android passiert.
Kurz vor der Vorstellung der Samsung Galaxy S26-Serie hat Google offiziell einen Blogbeitrag mit dem Titel „Intelligentes Betriebssystem: Mach AI-Agenten nützlicher für Android-Apps“ veröffentlicht und ein neues System von Anwendungsfähigkeits-Schnittstellen – AppFunctions – eingeführt, das es APPs ermöglicht, dem System aktiv die Funktionen zu melden, die von der KI aufgerufen werden können.
Nehmen wir als Beispiel eine Lieferessen-APP, die dem System mitteilen kann: Sie unterstützt die Funktionen Restaurant suchen, Artikel hinzufügen und Bestellung aufgeben. Wenn der Benutzer Gemini sagt: „Bestelle mir eine Pizza“, muss die KI nicht unbedingt Schritt für Schritt die Benutzeroberfläche anklicken, sondern kann direkt diese Funktionen aufrufen, um die Aufgabe zu erfüllen.
Wenn man dieses System als „Funktionsaufruf“ der KI versteht, wird alles sehr klar. In der Planung von Google gibt es für den AI-Agenten eigentlich zwei Wege, um Aufgaben auszuführen. Der eine ist der direkte Aufruf der Anwendungsfähigkeiten über die System-Schnittstelle, der andere ist die GUI-Automatisierung durch die Erkennung der Benutzeroberfläche.
Der erste Weg ist effizienter und stabiler; der zweite dient der Kompatibilität mit Anwendungen, die die neuen Schnittstellen nicht unterstützen.
Dies bedeutet, dass die zukünftige Geräteautomatisierungsfähigkeit von Gemini im Wesentlichen keine einfache „Bedienung des Mobiltelefons durch die KI am Bildschirm“ ist, sondern eine Architektur, die System-API und GUI kombiniert.
Anwendungsbeispiel von AppFunctions, Bildquelle: Lei Technology
Dieser Unterschied klingt etwas technisch, aber die dahinterliegende Produktlogik ist eigentlich sehr einfach. Im Gegensatz dazu, dass der Doubao-Mobiltelefon-Assistent die KI wie einen Menschen das Mobiltelefon bedienen lässt, will Google die KI wie ein Betriebssystem die Anwendungen steuern lassen.
Wenn die KI nur die Bildschirmpixel liest, steht sie immer außerhalb des Systems und kann nur die Bedienungsmuster des Menschen imitieren. Sobald die KI jedoch in das Betriebssystem integriert wird, kann sie direkt die Fähigkeiten zwischen den Anwendungen koordinieren.
Von diesem Blickwinkel aus ist das eigentliche Ziel der Gemini Screen Automation vielleicht nicht das Bestellen von Lieferessen oder das Anrufen eines Taxis. Was Google wirklich aufbauen will, ist eine neue Android-Betriebslogik und ein neues Ökosystem. Aus diesem Grund können wir auch verstehen, warum Google zusammen mit Qualcomm an der Entwicklung eines „Android-Computers“ (nicht Chromebook) arbeitet.
Das erklärt auch, warum das Konzept von Gemini sowohl aggressiv als auch konservativ scheint.
Das aggressive an diesem Ansatz ist, dass es versucht, die KI zum Steuerungszentrum von Android zu machen. Das konservative daran ist, dass Google nicht vorhat, die KI das gesamte Mobiltelefon beliebig übernehmen zu lassen, sondern schrittweise diese Veränderung durch System-Schnittstellen, Berechtigungssteuerung und eine Whitelist von Anwendungen vorantreibt.
Im Vergleich zur Vorstellung eines „allmächtigen AI-Agenten“ ist dieser Weg offensichtlich langsamer und zurückhaltender. Aber für ein Betriebssystem mit Milliarden von Geräten hat Google möglicherweise nicht viel Raum für aggressives Ausprobieren.
Doubao nach links, Qianwen nach rechts, Gemini in der Mitte
Im Vergleich zu Googles Vorgehensweise bei Mobiltelefonen hat der Ende vergangenen Jahres vorgestellte Doubao-Mobiltelefon-Assistent den einfachsten und aggressivsten Weg gewählt: Die KI bedient das Mobiltelefon wie ein Mensch.
In diesem Konzept liest die KI die Bildschirmpixel, erkennt Buttons, Eingabefelder und die Seitenstruktur und simuliert dann einen Fingerdruck, um die Bedienung abzuschließen. Ob es um das Bestellen von Lieferessen, das Preisshopping oder das Aufgeben einer Bestellung geht, die KI führt alles Schritt für Schritt auf der Mobiltelefonoberfläche aus.
Der größte Vorteil dieser Methode ist die Allgemeingültigkeit. Da die KI nur den Bildschirm sieht, benötigt sie keine Schnittstellenunterstützung von APPs und keine Plattformberechtigung. Theoretisch kann die KI alle Anwendungen bedienen, die ein Mensch bedienen kann.
Deshalb haben viele Menschen beim ersten Test des Doubao-Mobiltelefon-Assistenten das Gefühl, es sei ein „echtes AI-Telefon“.
Bildquelle: Doubao
Aber die Probleme sind ebenfalls offensichtlich. Wenn die KI den gesamten Bildschirm lesen und alle Anwendungen bedienen kann, sind Berechtigungs- und Sicherheitsprobleme unvermeidlich. Gleichzeitig begrüßen viele Internetplattformen diese Automatisierungsaktionen nicht, da sie die Plattform-Eingänge und -Empfehlungssysteme umgehen.
Einfach ausgedrückt, ist der Weg von Doubao technisch sehr direkt, aber er führt auch natürlich zu Reibungen mit dem Anwendungsökosystem.
Im Vergleich dazu verfolgt Qianwen von Alibaba einen anderen Ansatz. Mit Hilfe des eigenen Service-Ökosystems von Alibaba wird die KI zum Steuerungszentrum. In diesem System wird die Anfrage des Benutzers in konkrete Aufgaben zerlegt, und dann werden die Dienste von Taobao, Alipay, Gaode, Fliggy usw. aufgerufen, um die Aufgaben zu erfüllen.
Beispielsweise werden beim Suchen nach Produkten, Aufgeben von Bestellungen und Bezahlen oder Planen von Routen direkt die echten Geschäftsfähigkeiten aufgerufen, anstatt die Oberflächenbedienung zu simulieren. Da alle Aktionen innerhalb des Ökosystems stattfinden, muss die KI keine Anwendungsberechtigungen umgehen und löst keine Plattform-Risikokontrollen aus. Da die Service-Schnittstellen direkt aufgerufen werden, ist die Ausführungsgeschwindigkeit oft auch höher.
Bildquelle: Lei Technology
Aber das Problem ist ebenfalls klar: die Ökosystemgrenzen. Die Dienste, die Qianwen steuern kann, sind im Wesentlichen Alibabas Anwendungen. Sobald die Anforderungen des Benutzers andere Plattformen betreffen, sinkt die Fähigkeit deutlich.
Von diesem Blickwinkel aus repräsentieren Doubao und Qianwen zwei sehr typische Wege für AI-Agenten. Der eine versucht, die KI das Mobiltelefon selbst zu übernehmen und strebt die Allgemeingültigkeit an; der andere integriert das Ökosystem und lässt die KI den Serviceprozess übernehmen, um die Geschäftstiefe zu erreichen.
Google's Gemini steht in gewisser Weise zwischen beiden. In der gegenwärtigen Phase behält Gemini weiterhin die GUI-Automatisierungsfähigkeit bei, was bedeutet, dass es bei Bedarf auch wie Doubao die Anwendungen durch die Erkennung der Oberfläche bedienen kann. Gleichzeitig hat Google in Android neue Anwendungsfähigkeits-Schnittstellen eingeführt, die es APPs ermöglichen, dem System aktiv die Funktionen zu melden, die von der KI aufgerufen werden können.
Wenn die Anwendungen diese Schnittstellen unterstützen, muss Gemini nicht mehr Schritt für Schritt die Oberfläche anklicken, sondern kann direkt die Anwendungsfähigkeiten aufrufen, um die Aufgabe zu erfüllen. Mit anderen Worten, Googles Konzept ist eigentlich ein gemischter Weg:
System-Schnittstellen haben Vorrang, GUI-Automatisierung als Sicherheitsnetz.
Abgesehen von der kurzen Sicht ist diese Methode offensichtlich nicht so beeindruckend wie die von Doubao und kann auch nicht so schnell ein reifes Ökosystem integrieren wie Qianwen. Aber der Vorteil besteht darin, dass es sowohl Konflikte mit dem Anwendungsökosystem vermeidet als auch eine ausreichende Allgemeingültigkeit behält.
Abschluss
Wenn man den Blickwinkel erweitert, ist es nicht schwer zu verstehen, warum sich die drei Wege so entwickelt haben.
ByteDance hat kein Betriebssystem und kein Ökosystem für lokale Lebensdienstleistungen, also lässt es die KI direkt das Mobiltelefon übernehmen. Alibaba hat ein riesiges Service-S