StartseiteArtikel

Siri beschleunigen die Entwicklung zu Agenten, und in Zukunft könnten Menschen vergessen, was es bedeutet, „auf eine App zu klicken“.

雷科技2026-06-04 12:05
Der App-Eingang wird entfernt.

Google hat auf dieser Jahres Android Show (I/O - Version) einen Satz gesagt, der etwas übertrieben klingt: Android wandelt sich von einem Betriebssystem in ein Intelligenzsystem um.

(Quelle: Google)

Vielleicht brauchen wir in Zukunft keine App - Icons mehr.

Übersetzt in einfache Sprache bedeutet das, dass das Smartphone nicht mehr nur ein Werkzeug ist, das passiv darauf wartet, dass Sie eine App öffnen, sondern es beginnt, Ihnen aktiv bei der Erledigung von Aufgaben zu helfen. Google hat sehr konkrete Beispiele gegeben: Wenn Sie eine Einkaufsliste im Notizbuch notieren, kann Gemini diese auslesen und dann in der Einkaufs - App Artikel nach Artikel in den Warenkorb legen; wenn Sie es bitten, Informationen zu einem Lehrbuch aus Gmail zu finden, kann es dies tun und Ihnen dann direkt bestellen; wenn Sie ihm ein Foto geben, kann es in einer Reise - Plattform nach der passenden Reise suchen.

(Quelle: Grafik von Lei Technology)

Nicht nur auf Smartphones soll diese Fähigkeit eingesetzt werden. Laut Google - Plan wird diese Fähigkeit zunächst auf Samsung Galaxy und Pixel - Geräten implementiert und anschließend auch auf Uhren, Autos, Brillen und Notebooks.

Hier stellt sich jedoch die Frage: Wenn das Smartphone beginnt, für uns zu "arbeiten" und nicht nur auf uns zu reagieren, wird die Logik hinter den Apps, die wir seit über einem Jahrzehnt nutzen, verändert? Im Folgenden sind die Ansichten von Lei Technology.

Wenn Siri und Co. "Hände" bekommen, wird sich alles ändern

In der Vergangenheit war der Sprachassistent eher wie ein Begleiter, der nur auf Sie antwortete. Wenn Sie beispielsweise zu Ihrem Smartphone sagen: "Füge die Einkaufsliste aus meinem Notizbuch in den Warenkorb ein", was würde der frühere Google Assistant tun? Wahrscheinlich würde er diesen Satz als Suchbegriff behandeln, den Browser öffnen und Ihnen einige relevante Links zurückgeben, und dann wäre die Aufgabe beendet.

Aber aus der Perspektive des Benutzers möchte man natürlich, dass er das Notizbuch öffnet, die Liste merkt, zur Einkaufs - App wechselt, Artikel für Artikel sucht und in den Warenkorb legt, und man seine Hände komplett entlastet. Das Problem ist, dass er zwar versteht, was Sie sagen, aber Ihre Aufgabe nicht erledigen kann.

(Quelle: Google)

Im Wesentlichen liegt der Grund darin, dass die früheren Assistenten nur "Augen" und "Mund" hatten, aber keine "Hände". Sie konnten Sprache erkennen, Ergebnisse vorlesen und bestimmte feste Funktionen öffnen, wie z. B. einen Wecker stellen, einen Anruf tätigen oder das Wetter abfragen. Sobald die Aufgabe mehrere Apps überschreiten musste, Zwischenschritte erforderte oder die nächste Aktion von dem Ergebnis der vorherigen Aktion abhängte, wussten sie nicht, was sie tun sollten.

Einige Leute in der Android - Entwickler - Community haben sich die beiden frühen Versuche von Google angeschaut. Einer hieß Direct Actions API, das verlangte, dass die App im Vordergrund laufen musste, damit der Assistent sie bedienen konnte, was bedeutet, dass der Assistent nicht im Hintergrund arbeiten konnte; der andere hieß Assist API, das dem System "Augen" gab, um den Bildschirm zu "sehen", aber ihm keinen "Gehirn" gab, um zu verstehen, wie es zu handeln sei. Beide Ansätze waren nicht erfolgreich. Das heißt, dass die Leute schon lange über die Tatsache beschwert haben, dass Sprachassistenten nur antworten, aber keine Aufgaben erledigen können.

Was Gemini Intelligence ergänzen möchte, sind genau die "Hände" und das "Gehirn". Google nennt diese Fähigkeit Task Automation (Aufgabenautomatisierung). Unter der Genehmigung des Benutzers kann es über mehrere ausgewählte Apps hinweg mehrstufige Aufgaben erledigen und dabei die Transparenz und die Kontrolle des Benutzers aufrechterhalten. Mit anderen Worten, wenn Sie einen Satz sagen, wird es die Liste lesen, die App öffnen und die Artikel in den Warenkorb legen. Bei jedem wichtigen, irreversiblen Schritt, wie z. B. wenn es tatsächlich bezahlen muss, wird es anhalten und auf Ihre Bestätigung warten.

Es ist bemerkenswert, dass Google diese Fähigkeit relativ vorsichtig freigibt. Es hat etwas namens Android Halo implementiert, das auf dem oberen Bildschirm ganz leicht anzeigt, "was der Intelligenzagent gerade tut und wie weit er ist", damit Sie jederzeit sehen und den Vorgang stoppen können. Google weiß auch sehr gut, dass "für Sie das Smartphone bedienen" ein sehr vertrauensintensives Geschäft ist, und es traut sich nicht, alles in die Hand zu nehmen.

(Quelle: Google)

Ehrlich gesagt, was diese Version derzeit tun kann, ist noch ziemlich begrenzt. Die Aufgabenautomatisierung deckt zunächst nur eine kleine Auswahl an Apps ab, und ihre Fähigkeiten sind ebenfalls begrenzt. Außerdem hat Gemini Intelligence hohe Anforderungen an die Smartphone - Hardware, und nicht alle Geräte können es ausführen. Derzeit sieht es eher wie eine frühe Phase aus, die einen klaren Richtungspunkt hat, aber noch vorsichtig voranschreitet.

Ich denke, dass sich unser Verhältnis zum Smartphone in den letzten zehn Jahren so gestaltet hat: "Öffnen Sie die App und suchen Sie dann nach der Funktion". Gemini Intelligence möchte es in "Stellen Sie einen Wunsch, und das System ruft die App für Sie auf" ändern. Wenn diese Umstellung gelingt, betrifft es nicht nur, ob ein Assistent gut funktioniert, sondern die gesamte Interaktionslogik im mobilen Bereich. Wenn Sie mit einem Satz eine Aufgabe erledigen können, hat das App - Icon dann noch einen Sinn?

Will Google AppFunctions der MCP im mobilen Bereich werden?

Bei dieser I/O - Veranstaltung hat Google gleichzeitig für Entwickler AppFunctions vorgestellt und es direkt mit dem Untertitel "Android MCP" versehen. Laut Google - Beschreibung ist AppFunctions eine Android - Plattform - API, die mit einer Jetpack - Bibliothek zusammenkommt, damit Ihre App wie ein "Endgeräte - MCP - Server" funktioniert und ihre Tools, Dienste und Daten für das System und den Intelligenzagenten zugänglich macht.

Das MCP - Protokoll hat in der Vergangenheit hauptsächlich die Cloud - Angelegenheiten gelöst, d. h., es hat es ermöglicht, dass AI - Intelligenzagenten auf standardisierte Weise mit verschiedenen Tools auf der Server - Seite verbunden werden können. AppFunctions bringt diesen Mechanismus auf das Smartphone lokal.

Entwickler müssen nur die Fähigkeiten wie "Notizbuch erstellen", "Nachricht senden", "E - Mail suchen", "Einkaufsliste hinzufügen" in Funktionen mit natürlicher Sprachbeschreibung schreiben und diese in die "Fähigkeitsliste" des Android - Systems registrieren. Dann kann ein Intelligenzagent wie Gemini sie finden und aufrufen. Das Wichtigste ist, dass der gesamte Prozess lokal auf dem Gerät ausgeführt wird, was eine geringere Latenzzeit und bessere Datenschutzbedingungen bietet.

(Quelle: Google)

In der Vergangenheit musste der Intelligenzagent, um eine App für Sie zu bedienen, einen sehr umständlichen Weg gehen: Er machte einen Screenshot, erkannte den Text per OCR, fand die Position der Schaltfläche, simulierte einen Klick, wartete auf die Änderung der Seite und wiederholte den Vorgang, wenn es fehlschlug. Dieser Prozess war langsam und anfällig, und wenn die App das Design ändert, kann alles ausfallen. AppFunctions ändert dies: Die App erklärt aktiv, "was sie kann", und der Intelligenzagent ruft diese Fähigkeiten direkt mit der Genehmigung auf. Das System ist für die Verwaltung der Berechtigungen, der Aufrufgrenzen und der Sicherheitsbeschränkungen verantwortlich.

Googles Vision für das zukünftige Smartphone - System ist, dass die Software in Zukunft eher wie "eine Gruppe von Fähigkeiten" als wie "eine Gruppe von Benutzeroberflächen" aussehen wird. Das heißt, die App - Icons könnten verschwinden und stattdessen werden einige Kernfähigkeiten auf dem Smartphone des Benutzers bleiben. Der Benutzer muss sich auch nicht mehr merken, was jede App macht, sondern kann einfach seinen Wunsch äußern.

Natürlich ist AppFunctions derzeit noch in einem sehr frühen Stadium. Für die Apps, die noch nicht integriert sind, hat Google ein Backup - Konzept in Form eines "UI - Automatisierungs" - Frameworks. Das heißt, dass Gemini wieder auf die alte Methode der simulierten Klicks zurückgreift, um vorübergehend zu helfen. Hier muss man auch an den Doubao - Smartphone - Assistenten denken. Im Wesentlichen basiert er auf der Logik von "Bildschirm verstehen und Klicks simulieren", aber mit vollen Berechtigungen, um verschiedene Funktionen zwischen Apps zu ermöglichen.

Egal welches Konzept, der Trend ist klar: Die Apps werden nicht verschwinden, aber die Wichtigkeit von App - Icons, Startseiten und traditionellen Menüs als "Eingänge" wird allmählich abnehmen. Die Benutzer achten immer weniger auf die App selbst und immer mehr auf die Kernfähigkeiten der App.

Wird die Möglichkeit, mit der Stimme AI arbeiten zu lassen, die Smartphone - Apps eliminieren?

In den letzten zehn Jahren war der Wettlauf zwischen den Apps ein "Kampf um den Eingang". Um was ging es dabei? Um die erste Seite des Desktops. Alle Produktentwürfe, alle Push - Benachrichtigungen und alle roten Punkte zielten im Wesentlichen darauf ab, die Aufmerksamkeit der Benutzer zu gewinnen.

Wenn jedoch die AI zum neuen systemweiten Eingang wird, ändert sich das Schlachtfeld. In Zukunft müssen die Apps um die "Aufrufhäufigkeit" des Intelligenzagents kämpfen. Wenn die Benutzer nicht mehr selbst die App öffnen, sondern ihren Wunsch an Gemini weitergeben, wird die Entscheidung von "welche App Gemini aufruft" zum neuen wichtigen Punkt. Stellen Sie sich vor, der Benutzer sagt: "Bestelle mir eine Tasse Kaffee". Welche App wird das System aufrufen, die von Luckin Coffee oder die von Starbucks? Oder wenn man ein Hotel bucht oder ein Flugticket kauft, welche App wird das System empfehlen?

(Quelle: Google)

Gerade weil das Interesse so groß ist, ist es besonders interessant, dass Google so eilig auf diesem Weg voranschreitet, denn sein alter Konkurrent Apple hat bei der gleichen Sache einen großen Sturz genommen.

Schon auf der WWDC 2024 hat es beeindruckend eine neue Siri vorgestellt, die mit dem App Intents - Framework die Interaktion zwischen Apps ermöglicht. Ein klassisches Demonstrationsszenario war: "Finde die Fotos von Sarahs Geburtstag letzten Monat, entferne den Hintergrund von dem besten Foto und sende es an ihr Instagram". Mit einem Satz hat Siri die Aufgabe zwischen mehreren Apps erledigt. Diese Vision ist fast die gleiche wie die von Gemini Intelligence heute.

(Quelle: Apple)

Aber wie wir alle wissen, war diese personalisierte Siri ursprünglich für 2025 geplant, wurde dann auf 2026 verschoben und von iOS 26.4 bis 26.5 hinausgezögert. Jetzt ist fast iOS 27 da, und diese Funktion ist immer noch nicht in Sicht.

Apples Leiter Craig Federighi hat erklärt, dass die ursprüngliche Funktion auf der "V1" - Architektur aufgebaut war, zwar funktionierte es, aber die Qualität nicht ausreichte. Es musste auf der neuen "V2" - Architektur neu aufgebaut werden. Als die Leiter der Softwareentwicklung und der Marketingabteilung in einem Interview nach dem genauen Datum gefragt wurden, sagten sie nur vage, dass es 2026 sein würde. Wahrscheinlich wird es auf der WWDC27 vorgestellt.

Tatsächlich kann man Apple nicht ganz verurteilen. Die Automatisierung zwischen Apps und das Generieren eines Textes sind zwei völlig verschiedene Dinge. Es muss in einer Situation mit unklaren Absichten, sich ändernden App - Zuständen und realen Berechtigungen präzise die richtigen Aktionen ausführen. Zuverlässigkeit, Genauigkeit und das Problem mit sensiblen Inhalten sind alle Hindernisse.

Deshalb ist es bei der "Überlassung der Smartphone - Bedienung an die AI" eher wahrscheinlich, dass mit der Open - Source - Grundstruktur von AppFunctions und der Vorverteilung von Hardware durch Samsung und Google ein funktionierender Prototyp eines "Agent OS" entsteht.