Warum hat das Doubao Handy dank des Super-Agenten so stark im Internet für Furore gesorgt? Lassen Sie uns mal hören, was die AI-Forscher dazu sagen.
Die KI auf dem Smartphone war noch nie so lebensecht.
In der letzten Woche hat ein Smartphone, das nicht von einer großen Hardwarefirma stammt, sondern mit Doubao von ByteDance verbunden ist, die Technologiebranche erobert.
Dieses Prototyp-Smartphone mit dem Doubao-Smartphone-Assistenten hat die ganze Welt im Sturm erobert und viele Menschen erstmals das Gefühl vermittelt, dass Agenten schon fast greifbar sind. Auf der E-Commerce-Plattform Taobao wurde der Preis für dieses Smartphone auf fast 5.000 Yuan hochgetrieben.
Der am Anfang dieses Monats veröffentlichte Doubao-Smartphone-Assistent ist derzeit noch eine technische Vorschauversion. Anders als die meisten KI-Assistenten, die als unabhängige Apps existieren, ermöglicht er durch die Integration von KI-Agenten in die Systemebene eine umfassende Verbesserung der KI-Fähigkeiten auf der Geräteebene und bringt eine neue Interaktionsweise und ein multimodales Erlebnis mit sich. Viele Technologieexperten sind der Meinung, dass der Doubao-Smartphone-Assistent das Verständnis von KI-Werkzeugen auf ein neues Niveau gehoben hat. Er ist nicht mehr nur ein Hilfswerkzeug oder eine externe App, sondern ein "Super-Butler", der tief in das Smartphone-Betriebssystem integriert ist.
Nach alledem kann der Doubao-Smartphone-Assistent mit nur einem Satz wirklich komplexe Befehle über mehrere Apps hinweg ausführen. Neben den gängigen Funktionen von Agenten auf anderen Smartphones, wie z. B. Bestellen von Essen, Buchhaltung und Änderung von Einstellungen, kann der Doubao-Smartphone-Assistent auch relativ unklare und komplexe langfristige Anforderungen bewältigen.
Der Doubao-Smartphone-Assistent erledigt den langfristigen Mehrfachauftrag "Markieren von Restaurants auf der Karte, Suchen nach Museen und Buhen von Tickets auf einer Reiseplattform" ohne Unterbrechung.
Eine solche Leistung lässt die Leute direkt sagen: "Ist das nicht ein bisschen zu intelligent?"
Zur gleichen Zeit haben die anhaltend wachsenden Diskussionen um den Doubao-Smartphone-Assistenten auch einige unterschiedliche Ansichten und Fragen aufgeworfen: Ist "KI-basierte Smartphone-Bedienung" wirklich die normale Art, wie Menschen in Zukunft Smartphones nutzen werden? Was hat der Doubao-Smartphone-Assistent richtig gemacht, um ein solches KI-Smartphone zu schaffen?
Nach einem eingehenden Blick auf die technologische Grundlage hinter dem Doubao-Smartphone-Assistenten und einem Austausch mit vier Wissenschaftlern haben wir ein klareres und umfassenderes Verständnis davon, wie er das Interaktionsparadigma neu gestaltet und die Umsetzung eines systemweiten GUI-Agenten vorantreibt.
Warum ist es so schwierig, ein systemweites Agent-System auf einem Smartphone zu installieren?
In den letzten zwei Jahren ist ein deutlicher Trend sowohl bei einigen aufstrebenden KI-Hardware-Start-ups als auch bei führenden Smartphone-Herstellern in China und im Ausland erkennbar: Die native KI-Fähigkeit wird tiefer in das Gerätesystem integriert, und eine der wichtigsten Formen davon ist die Einführung von KI-Agenten.
Als ein von einem multimodalen visuellen Modell angetriebenes KI-System kann ein GUI-Agent, wenn er auf Anweisungen in natürlicher Sprache reagiert, den Bildschirminhalt verstehen, eigenständig schließen und ähnliche Interaktionen wie ein Mensch auf der Benutzeroberfläche ausführen, wie z. B. das Lesen von Informationen, das Klicken auf Schaltflächen und das Eingeben von Inhalten, um bestimmte Aufgaben zu erledigen.
Mit der stetigen Verbesserung der Fähigkeiten von GUI-Agenten auf der Geräteebene wird der systemweite GUI-Agent, gekennzeichnet durch eine höhere Integration und tiefere Systemrechte, allmählich das Kernziel für die nächste Phase. Dies erfordert nicht nur die effiziente Ausführung von Aufgaben, sondern auch das Verständnis von Kontext und die Koordination des Übergangs zwischen mehreren Apps.
Aber die Umsetzung eines solchen systemweiten Agenten ist nicht einfach. Aus akademischer und technischer Perspektive müssen ungefähr die folgenden vier Ebenen von Hindernissen überwunden werden:
Erstens die Wahrnehmungsebene: Der Agent muss alle interaktiven Elemente auf dem Bildschirm, wie z. B. Symbole, Schaltflächen und Textfelder, innerhalb von Millisekunden erkennen. Darüber hinaus muss er in der Lage sein, dynamischen Störungen zu widerstehen, da die App-Benutzeroberflächen komplex sind und Pop-up-Werbung, Overlays und dynamisch geladene Inhalte visuelle Störungen verursachen können. Der GUI-Agent muss über eine "Pixel-genaue" präzise Positionsbestimmung verfügen und gleichzeitig die "Funktionssemantik" hinter den Symbolen verstehen.
Zweitens die Planungsebene: Dies betrifft hauptsächlich den Informationsfluss zwischen verschiedenen Apps, einschließlich des Wechsels zwischen Apps, der Extraktion von Kontextinformationen und der Verwendung der Zwischenablage. Während der Ausführung können auch unerwartete Situationen wie Netzwerkausfälle, abgelaufene Anmeldungen und Pop-up-Fenster auftreten. Wenn ein traditioneller Workflow unterbrochen wird, kann er möglicherweise nicht fortgesetzt werden. Der GUI-Agent muss die logische Kohärenz über mehrere Apps hinweg aufrechterhalten und in der Lage sein, sich selbst zu reflektieren, z. B. wenn er feststellt, dass ein Weg blockiert ist und eine andere Möglichkeit sucht.
Drittens die Entscheidungsebene: Der GUI-Agent muss über eine starke Generalisierungsfähigkeit verfügen und nicht nur auf bekannten Benutzeroberflächen funktionieren, sondern auch in unbekannten Apps ähnliche Aktionen ausführen können. Darüber hinaus umfasst die Smartphone-Bedienung nicht nur das Klicken, sondern auch das Langdrücken, das Verschieben und das Zoomen, was höhere Anforderungen an die Rückkopplungsschleife des Agenten stellt und bedeutet, dass der Entscheidungsprozess noch schneller und präziser sein muss.
Viertens die Systemebene: Zunächst die Reaktionsgeschwindigkeit - Benutzer können keine langen Wartezeiten tolerieren. Zweitens die Rechtebarrieren - unter strengen Sandbox-Mechanismen wie Android ist es nicht einfach, auf die Bildschirminformationen anderer Apps zuzugreifen oder Aktionen auszuführen. Der GUI-Agent muss unter Berücksichtigung der Datenschutz- und -sicherheit sowie einer geringen Latenz die Datensilos innerhalb des Betriebssystems aufbrechen.
Die Hindernisse auf diesen vier Ebenen bilden gemeinsam die größten Herausforderungen bei der Umsetzung eines systemweiten GUI-Agenten. Bei der Diskussion der Probleme bei systemweiten App-übergreifenden Operationen erwähnte Liu Bang, Professor an der Universität von Montreal und am MILA-Labor die Probleme der Bildschirmverstehen und der Element-Positionierung auf der Wahrnehmungsebene sowie die Planung und Zustandsverwaltung von langfristigen Aufgaben auf der Planungsebene. Echte Benutzeraufgaben erfordern oft mehrere Dutzend Schritte, gehen über mehrere Apps hinweg und können auch Pop-up-Fenster, Netzwerklatenz, Berechtigungsanforderungen, Captchas und asynchrone Ladevorgänge verursachen. Der Agent muss sich daran erinnern, was er zuvor getan hat, welchen Zustand er derzeit hat und was als Nächstes passieren könnte, und in der Lage sein, mit Fehlern oder Ausnahmen umzugehen.
Zhang Chi, Leiter des Labors für allgemeine Künstliche Intelligenz (AGI) an der Westlake-Universität und Assistentprofessor hat die Fähigkeiten des Kontextgedächtnisses und der Schlussfolgerungsgeschwindigkeit als entscheidend für die Produktivität von GUI-Agenten hervorgehoben. Dr. Zhang Weinan, Professor an der Fakultät für Informatik der Shanghai Jiao Tong Universität und Betreuer von Doktoranden ist der Meinung, dass die großen KI-Unternehmen derzeit hauptsächlich über eine oder einige wenige Apps agieren und daher nicht über die maximale Zugriffs- und Steuerungsberechtigung auf die Daten verfügen. Daher können sie den Benutzerkontext nicht abgleichen und auch nicht alle Aktionen ausführen, die ein Benutzer ausführen kann.
Shen Yongliang, Stipendiat des "Hundred Talents Program" der Zhejiang-Universität und Betreuer von Doktoranden hat einige Schwierigkeiten zusammengefasst, darunter die Planung von langfristigen Aufgaben, die Schlussfolgerungsgeschwindigkeit und wie ein leichtgewichtiges Modell kurz- und langfristige Erinnerungen verwalten kann. Dies sind auch die Kernprobleme, die derzeit von der akademischen Welt intensiv untersucht werden.
Bei einem so umfassenden Projekt, das KI-Technologie, Endgeräte-Hardware, Betriebssysteme und die Ökosystemkoordination umfasst, kann die Unreife eines einzigen Schritts die erfolgreiche Produktivierung eines Agenten beeinträchtigen. In den letzten zwei Jahren haben die akademische Welt und die Branche begonnen, die Fähigkeiten von Agenten-Trägern zu stärken, einschließlich der Forschungsprojekte AppAgent, Mobile-Agent, UI-TARS für allgemeine GUI-Agenten sowie der Rabbit-artigen allgemeinen Agenten, die auf visueller Erkennung und barrierefreier Steuerung basieren, und die systemweiten Agenten, die von Smartphone-Herstellern auf der Betriebssystemebene entwickelt werden.
Durch diese Versuche kann KI nun ähnlich wie ein Mensch das Smartphone-Bildschirm bedienen und bestimmte Aufgaben erledigen. Aber es gibt immer noch viele Probleme, wie z. B. die fehlende Freigabe von Rechten für verschiedene Apps, die geringe Erfolgsrate bei langfristigen komplexen Aufgaben, lange Wartezeiten und das Fehlen der Fähigkeit, mit unerwarteten UI-Situationen umzugehen. All dies begrenzt die Stabilität und Praktikabilität des systemweiten GUI-Agenten.
Der Doubao-Smartphone-Assistent nutzt die Stärken anderer Lösungen und vermeidet deren Schwächen, indem er den Ansatz "GUI-Agent + systemweite Rechte" verfolgt. Einerseits erhält er durch die tiefe Integration in das System Android-Systemrechte, die jedoch strengere Nutzungsbeschränkungen haben und nur nach ausdrücklicher Genehmigung des Benutzers genutzt werden können. Dies ermöglicht es dem Doubao-Smartphone-Assistenten, Klicks, Swipes, Eingaben und App-übergreifende Aktionen zu simulieren. Andererseits kann er dank seiner visuellen multimodalen Fähigkeiten - das Erkennen der Bildschirm-UI, das Verstehen des Bildschirminhalts, das Interpretieren der Benutzerabsichten und die Planung der Aktionen - selbstständig entscheiden, "wo als Nächstes geklickt, was eingegeben und in welche App gewechselt werden soll". Nach Liu Bangs Worten ist dies wie ein "geisterhafter Finger + Gehirn + Entscheidungssystem".
Zhang Chi hat die systemweite Integrationsfähigkeit des Doubao-Smartphone-Assistenten hervorgehoben. Durch die ständige Verbesserung der Grundfähigkeiten und die Integration verschiedener Technologien (z. B. der Aufruf von Systemfunktionsschnittstellen) kann er ein besseres GUI-Agent-Erlebnis bieten. Zhang Weinan hat gesagt, dass der Doubao-Smartphone-Assistent die Barrieren zwischen Apps durch den GUI-Agenten abgebaut hat und deutliche Fortschritte bei der Anpassung des Benutzerkontexts und des Handlungsraums gemacht hat. "Als das erste von einem Smartphone-Hersteller und einem großen KI-Unternehmen gemeinsam entworfene KI-Smartphone hat es in der Entwurfslogik eine größere Umwälzung als die von traditionellen Smartphone-Herstellern bei der KI-Transformation vorgenommenen Entwürfe."
Shen Yongliang hat besonders die nativen visuellen Bedienfunktionen des Doubao-Smartphone-Assistenten hervorgehoben. Durch die enge Zusammenarbeit mit Smartphone-Herstellern hat er systemweite Bedienrechte erhalten und kann direkt an das Systemkern senden, um Klicks und Swipes wie ein menschlicher Finger zu simulieren. Diese auf der Systemebene basierenden visuellen Bedienfunktionen unterscheiden sich grundlegend von den herkömmlichen Drittanbieter-Apps, die auf barrierefreien Diensten basieren. Sie sind äußerst universell einsetzbar, stabiler in der Ausführung und ähnlicher wie die Bedienung eines Menschen. Sie zeichnen sich durch eine ausgewogene Leistung bei der Schlussfolgerungsgeschwindigkeit und der Aufgabenabschlussrate aus und haben eine beachtliche Fähigkeit zur Verarbeitung von langen Kontexten.
Insgesamt baut der Doubao-Smartphone-Assistent eine allgemeine Agent-Schicht auf, die "visuelles Verständnis, Schlussfolgerungen durch große Modelle und systemweite native Ausführung" integriert. Dadurch kann er auf verschiedene Apps und Benutzeroberflächenformen universell reagieren und UI-Operationen ausführen.
Betrachtet man die Kompatibilität, die automatisierte App-übergreifende Ausführung, die Verarbeitung von langfristigen Aufgaben und die Verwaltung von mehreren Aufgaben, hat der Doubao-Smartphone-Assistent bereits bessere Leistungen als traditionelle skriptbasierte Automatisierungs- oder barrierefreie Schnittstellenlösungen gezeigt. All dies bietet eine solide Grundlage für die Umsetzung eines höheren Levels von systemweiten GUI-Agenten.
UI-TARS: Das eigenentwickelte systemweite GUI-Agent-Engine hinter dem Doubao-Smartphone-Assistenten
Ich bin sicher, dass Sie alle von den verschiedenen Demonstrationen des Doubao-Smartphone-Assistenten überflutet wurden. Ob es um das App-übergreifende Buhen von Flugtickets, das automatische Preissvergleich, das Bearbeiten von Bildern oder das reibungslose Abschließen eines komplexen Prozesses auf dem Smartphone geht, all diese Fähigkeiten zeigen: Das Smartphone ist nicht mehr nur ein Werkzeug, das darauf wartet, dass Sie es bedienen, sondern beginnt, selbstständig Aufgaben zu erledigen.
Hinter diesen Fähigkeiten steckt das von ByteDance im Jahr 2025 eigenentwickelte und quelloffene Modell UI-TARS. Es ist bekannt, dass der Doubao-Smartphone-Assistent die proprietäre Version von UI-TARS nutzt, die nicht nur besser als die quelloffene Version performt, sondern auch für die Mobilnutzung optimiert wurde.
UI-TARS geht auf Januar dieses Jahres zurück, als es das Grundgerüst für die Richtung der GUI-Agenten bei ByteDance legte. Im April veröffentlichte das Team die fortgeschrittene Version UI-TARS-1.5, die die fortschrittlichen Schlussfolgerungsfähigkeiten durch verstärktes Lernen integriert, sodass das Modell vor der Ausführung von Aktionen zuerst nachdenken und planen kann. Im September wurde UI-TARS-2 vorgestellt, das dieses System auf eine neue Stufe bringt.
UI-TARS umfasst einen Daten-Flywheel-Mechanismus für die erweiterbare Datenerzeugung, ein stabiles Framework für mehrstufiges verstärktes Lernen, eine hybride GUI-Umgebung, die Dateisystem und Endgerät integriert, und eine einheitliche Sandbox-Plattform, die das Testen und die Bewertung von großen Mengen von Daten unterstützt.
Erstens muss das Problem der fehlenden Daten gelöst werden.