Tiefgehende Analyse des Google-Äquivalents zum "Doubao-Handy": Welches Spiel spielt der Herrscher von Android?
Wenn KI beginnt, ihre eigene Form zu finden, sind manche Entscheidungen überraschend.
Die KI hat eine separate Taste auf Smartphone bekommen, was den Smartphones anscheinend wieder die lange vermisste Evolutionskraft gegeben hat. Brillen haben aufgrund ihrer natürlichen Rolle als visuelles und auditives Eingangsportale allmählich die Gestalt des nächsten persönlichen Endgeräts angenommen. Einige kleine und spezialisierte Geräte scheinen in bestimmten Momenten zuverlässiger zu sein als All-in-One-Geräte. Gleichzeitig stossen die radikalen Versuche, das Smartphone auf einmal zu ersetzen, auf die Kälte der Realität.
Die Umsetzung von Technologie ist nie nur eine Ansammlung von Funktionen, sondern hat auch mit menschlichen Gewohnheiten, der Passgenauigkeit von Szenarien und der Neudefinition von „nützlich“ zu tun.
IFanr hat die Rubrik "KI-Objektchronik" ins Leben gerufen und möchte mit Ihnen beobachten, wie die KI die Hardwaregestaltung verändert, wie sie die Mensch - Maschine - Interaktion neu formt und, was noch wichtiger ist, in welcher Form die KI in unseren Alltag eindringen wird?
Man hatte angenommen, dass die Samsung Galaxy S26 - Serie bereits ausführlich bekannt sei und die Vorstellung nur noch eine Formality sei. Doch es stellte sich heraus, dass Samsung und Google noch eine Überraschung hatten.
Die beiden Unternehmen haben gemeinsam die neuen Fähigkeiten des KI - Agents Gemini auf dem S26 gezeigt: Mit einem einfachen Mundbefehl kann Gemini Ihnen im Uber einen Wagen buchen oder im DoorDash Essen bestellen.
Quelle: Android Central
Diese Funktion befindet sich derzeit noch in der frühen Vorschauphase und ist nur in den USA und Südkorea verfügbar.
Sie können sich das so vorstellen, dass Google und Samsung zusammen einen globalen "Doubao - Smartphone - Assistenten" (genauer gesagt) geschaffen haben. Die Galaxy S26 - Serie ist nur der Anfang. Diese Fähigkeiten werden später auch auf das Google Pixel 10 - Smartphone und weitere Android 17 - Geräte übertragen.
Nachdem ich viele Smartphone - und Computer - System - KI - Agenten kennengelernt und auch den "Doubao - Smartphone - Assistenten" intensiv genutzt habe, denke ich, dass die Diskussion über den Gemini - Agenten nicht nur auf eine "neue Funktion" beschränkt bleiben sollte.
Zwar wurde das Android - Betriebssystem bereits von vielen Herstellern wie OPPO, Honor und Huawei tiefgreifend angepasst, um KI - Agenten zu unterstützen.
Aber dies ist Google, der absolute Besitzer des Android - Betriebssystems.
Wenn ByteDance als "Außenstehender" in seinen Versuchen den nationalen Apps "Unhuld" getan hat, hat es eine ganz andere Bedeutung, wenn Google das tut.
Aber keine Sorge, lassen Sie uns zunächst sehen, was genau das "Doubao - Smartphone", das Google und Samsung gemeinsam entwickelt haben, zu bieten hat.
Wie ist es, das "Doubao - Smartphone" von Samsung zu benutzen?
Die "Automatischen Aufgaben von Gemini", die Samsung und Google gezeigt haben, können menschliche Handlungen am Smartphone imitieren und so die Automatisierung von Aufgaben ermöglichen. Der dahinterliegende Ansatz basiert auf der Kombination aus KI-gestützter Bildschirmauswertung und der Nutzung von System - und Anwendungs - APIs.
Beachten Sie, dass der von ByteDance und Nubia gemeinsam entwickelte "Doubao - Smartphone - Assistent" stark auf Systemrechte und Bildschirmauswertung setzt, anstatt auf APIs. Man kann sich das so vorstellen, dass der Doubao - Smartphone - Assistent eher einen "rohen" Ansatz verfolgt, ohne die Anwendungsentwickler (zumindest die der nationalen Apps) zu konsultieren, was auch die Basis für die Ablehnung und Boykott durch die nationalen Apps darstellt.
Der Gemini - Agent auf der Samsung Galaxy S26 - Serie hingegen kombiniert beide Ansätze. Laut Informationen von Samsung können die Top 200 Apps im App - Store unterstützt werden (wobei die Effektivität nur für bestimmte Apps gewährleistet ist, was später näher erläutert wird) - was bedeutet, dass Samsung und Google zumindest die meisten Anwendungsentwickler informiert haben.
Schauen wir uns die Erfahrungen aus der Zeitschrift "Wired" an: Wenn man einfach Gemini aufruft und sagt, dass man zum Flughafen möchte, öffnet die Gemini - App ein "virtuelles Fenster", in dem Uber geöffnet wird, und beginnt im Hintergrund mit der Abarbeitung des Auftrags. Der Benutzer kann jederzeit darauf zugreifen, um den Fortschritt zu überprüfen.
Da es in der Gegend mehrere verschiedene Flughäfen gibt, erinnert Gemini den Benutzer schnell daran, ein passendes Ziel auszuwählen. Beim Bestellen bringt Gemini auch die entsprechende Seite an den Vordergrund, damit der Benutzer ein passendes Fahrzeug auswählen und bezahlen kann.
Das "virtuelle Fenster" von Gemini kann man sich als eine sandboxisolierte "Virtuelle Maschine" vorstellen, was eine Maßnahme von Google zum Schutz der Benutzerprivatsphäre ist. Früher lief Gemini im Android - System, aber der neue Gemini - Agent arbeitet jetzt nur innerhalb dieser Sandbox und greift nicht auf andere Teile des Geräts zu.
Übrigens: Wenn Sie schon Smart - Agentenprodukte wie Manus, Kimi computer von Yue'an oder Zhipu AutoGLM mit Cloud - Computer/Cloud - Smartphone - Fähigkeiten genutzt haben, sollten Sie die Logik dieser Gemini - Virtuellen Maschine leicht verstehen können.
Quelle: 9To5Google
Dies ist eine relativ einfache Aufgabe, die bereits vor einem Jahr von vielen chinesischen KI - Smartphone - Assistenten bewältigt werden konnte.
Die wirklich herausragende Fähigkeit von Gemini liegt in der Kombination mit seinen langfristig entwickelten Fähigkeiten zur Bildschirmauswertung und Informationsgewinnung.
Beispielsweise, wenn der Benutzer mit einem Freund über eine Party spricht und die Bestellung von Pizza erwähnt, kann der Benutzer einfach Gemini aufrufen und sagen "Bestellung klären". Gemini kann dann direkt die in der Unterhaltung genannten Pizzaläden und sogar die speziellen Pizza - Sorten auswerten und die Wünsche jeder Person zusammenfassen.
Anschließend kann der Benutzer Gemini direkt anweisen, im Lieferdienst Grubhub Essen zu bestellen. Die KI fügt alle Lebensmittel automatisch in den Warenkorb ein und lässt den Benutzer die Bestellung bestätigen und abschicken.
Manchmal verläuft die Bestellung nicht so reibungslos. In diesem Fall versucht Gemini, die Probleme selbst zu lösen und bietet dem Benutzer Lösungsvorschläge. Einmal hat das Pizzarestaurant während der Rush - Stunde die Bestellmenge für große Pizzen beschränkt. Gemini hat dann gefragt, ob man stattdessen zwei mittlere Pizzen bestellen kann.
Hier ist noch ein weiteres Beispiel: Wenn man in Google Keep eine Gästeliste für ein Grillfest erstellt und die Vegetarier markiert hat, kann Gemini zunächst berechnen, wie viele Hotdogs und Brötchen benötigt werden und dann die Zutaten bestellen. Innerhalb weniger Minuten befinden sich alle Waren im Warenkorb von DoorDash.
Sammer Samat, der Präsident des Google Android - Ökosystems, hat erwähnt, dass Gemini nicht einfach die Schritte und Routen der Plattformoperationen "auswendig gelernt" hat, sondern tatsächlich seine Inferenzfähigkeiten nutzt, um menschliche Bildschirmbetrachtung und Weiteraktionen zu imitieren. Dies bedeutet, dass Gemini in Zukunft in noch mehr Szenarien eingesetzt werden kann.
Hier können Sie sehen, dass die ersten Schwerpunkte von Gemini auf Bestellungen von Essen und Fahrtenbuchungen liegen, was eher an das, was Qianwen vor dem chinesischen Neujahr getan hat, erinnert.
Quelle: Wired
Noch ein "Doubao - Smartphone", diesmal von der Android - Offizielle Seite
Im Vergleich zum wirklich "allmächtigen" Doubao - Smartphone - Assistenten, der sogar in der WeChat - Sammlung nach Dingen suchen konnte (zumindest bevor er boykottiert wurde), hat Gemini derzeit noch relativ eingeschränkte Fähigkeiten und konzentriert sich auf alltägliche Szenarien wie Fahrtenbuchungen, Lebensmittelbestellungen und Einkäufe. Obwohl die zugrunde liegende Technologie stärker ist, unterscheiden sich die Benutzererfahrungen nicht wesentlich von denen von chinesischen KI - Smartphone - Assistenten wie Xiaoyi von HarmonyOS oder YOYO von Honor.
Wie am Anfang des Artikels erwähnt, hat Google ein ganzes Android - Ökosystem in der Hand und hat somit absolute Autorität und Kontrolle.
Mit der Veröffentlichung der Automatisierungsfähigkeiten von Gemini hat Google auch die zugrunde liegende Architektur des Android - Systems und die zukünftigen Pläne detailliert offen gelegt - es gibt zwei Richtungen, kurz gesagt, sind es sowohl "Apple - ähnlich" als auch "Doubao - ähnlich".
Zunächst hat Google im vergangenen Jahr ein Framework namens "AppFunctions" veröffentlicht, das es Entwicklern ermöglicht, spezifische Funktionen und Merkmale ihrer Apps öffentlich zugänglich zu machen, damit KI - Assistenten darauf zugreifen können.
Google vergleicht AppFunctions mit dem "Modell - Kontext - Protokoll" (MCP) von Android, das man sich einfach als ein Dialogstandard vorstellen kann, der die Anbindung von Drittanbieter - Apps an KI - Modelle erleichtert.
Dieses Framework ähnelt den App Intents von Apple. In Apples Vorstellung kann der Benutzer Siri anweisen, verschiedene Apps zu bedienen, um Funktionen auszuführen. Die zugrunde liegende Implementierungsmethode ist die Nutzung von App Intents - solange die neue Version von Siri noch nicht verfügbar ist, bieten App Intents bereits gute Ergebnisse.
Das Gleiche gilt für Google's AppFunctions.
Beispielsweise gibt der Benutzer den Befehl, ein Rezept aus der E - Mail eines Freundes zu finden und die Zutaten in die Einkaufsliste aufzunehmen. Die KI ruft zunächst die "Suche" - Funktion der E - Mail - App auf, sucht und extrahiert die relevanten Informationen und fügt dann die Daten in die "Einkaufsliste" der Notiz - App ein.
Einige AppFunction - Funktionen sind bereits auf der Samsung Galaxy S26 und im One UI 8.5 - System implementiert. Beispielsweise kann der Benutzer Gemini anweisen, bestimmte Fotos aus der Galerie zu finden und per SMS an einen Freund zu schicken.
Beachten Sie, dass Gemini während des gesamten Prozesses weder die Galerie - noch die SMS - App öffnen muss und sogar nicht die Gemini - App verlassen muss. Stattdessen werden die entsprechenden Einträge über AppFunctions in die Gemini - App integriert und die Operationen dort ausgeführt, was effizienter ist.
Im Wesentlichen basiert die Implementierungsmethode von AppFunctions auf der gleichen Logik wie der API - Ansatz. Dies ist ein "kooperativer" Lösungsansatz.
Allerdings sind nicht alle Apps auf diese Funktionen vorbereitet. Kein Problem, Google hat auch einen anderen Plan.
In einem gestern auf dem Android - Entwicklerblog veröffentlichten Artikel hat Google klar gemacht, dass es derzeit an einem UI - Automatisierungsframework arbeitet, das es KI - Assistenten und Drittanbieter - Anwendungen ermöglicht, menschliche Handlungen zu imitieren und Apps direkt Schritt für Schritt zu bedienen.
Das ist eine Art Kopie des "Doubao - Smartphones".
Obwohl Google sagt, dass die UI - Automatisierung in Zukunft die "schweren Arbeiten" übernehmen wird, ist es in der Galaxy 26 - Serie derzeit nur eine "frühe Vorschauversion".
Der Doubao - Smartphone - Assistent empfiehlt und vergleicht Shampoos für mich.
Während AppFunctions zusätzliche Anpass