Aufdeckung des "Doubao Handys": Die Erforschung der Kerntechnologie ist bereits Open Source, die GUI Agent - Layoutplanung hat in den letzten zwei Jahren stattgefunden. "Das weltweit erste echte AI - Handy"
Die ersten 30.000 Stück des momentan heiß begehrten "Doubao-Smartphones" wurden in kürzester Zeit ausverkauft, und auf dem zweiten Markt hat sich der Preis verdoppelt. Jetzt wurden weitere technische Details bestätigt.
Es hat sich gezeigt, dass hinter der technischen Vorschauversion des Doubao-Smartphone-Assistenten ein großes Vorhaben von ByteDance steckt, das in der "System-Level GUI Agent"-Branche seit fast zwei Jahren entwickelt wird.
Bei der offiziellen Demonstration konnte der auf dem Prototypen nubia M153 installierte Assistent automatisch Aufgaben über verschiedene Anwendungen hinweg ausführen und so die Arbeit des Benutzers übernehmen.
Beispielsweise kann man ihm mehrere Befehle auf einmal geben, wie etwa im Feishu-App einen Urlaub beantragen, einen Geschäftsreisekalender erstellen und eine Hochgeschwindigkeitszugstickets buchen lassen:
Neueste Informationen zufolge basiert diese Fähigkeit zur Bedienung von grafischen Benutzeroberflächen auf dem von ByteDance selbst entwickelten UI-TARS-Modell.
Entwickler sollten mit dieser Modellreihe nicht unbekannt sein. Die erste Version wurde als Open-Source-Projekt veröffentlicht und löste heftige Diskussionen aus. Sie wurde als leistungsfähiger als der damals veröffentlichte OpenAI Operator bewertet (UI-TARS wurde bereits vor der offiziellen Veröffentlichung des Operators veröffentlicht).
Das "Doubao-Smartphone" nutzt die geschlossene Quelle der UI-TARS-Version, die nicht nur leistungsfähiger als die Open-Source-Version ist, sondern auch für den mobilen Gebrauch optimiert wurde.
Mit anderen Worten, die Kerntechnologie des Doubao-Smartphone-Assistenten wurde bereits vor längerer Zeit als Open-Source-Projekt veröffentlicht.
PS: Der später veröffentlichte OpenAI Operator erfordert einen monatlichen Pro-Abo von 200 US-Dollar...
Die kontinuierliche Entwicklung und Anwendung des UI-TARS-Modells
Schon im Januar dieses Jahres veröffentlichte das ByteDance Seed-Team in Zusammenarbeit mit der Tsinghua-Universität die erste Version des UI-TARS als Open-Source-Projekt, was die Grundlage für System-Level AI Agenten legte. Seitdem hat das Team diese Richtung weiterverfolgt und ständig an der Verbesserung der Fähigkeiten gearbeitet.
Das Team hat festgestellt, dass ein nativer Agent über die vier Kernfähigkeiten Wahrnehmung, Handlung, Schlussfolgerung und Gedächtnis verfügen muss.
Deshalb wurden bei der ersten Version des UI-TARS vier Schlüsselinnovationen in Bezug auf diese Fähigkeiten vorgenommen.
1) Verbesserung der Genauigkeit der GUI-Wahrnehmung durch einen umfangreichen Datensatz von GUI-Screenshots und fünf Wahrnehmungsaufgaben (Elementbeschreibung, Erkennung markierter Bereiche usw.).
2) Entwurf eines einheitlichen Handlungsraums für verschiedene Plattformen, Integration von annotierten Bahnen und Open-Source-Daten zur Verbesserung der Genauigkeit der Handlungsortung.
3) Einbindung von 6 Millionen hochwertigen GUI-Tutorials und verschiedenen Schlussfolgerungsmustern (Aufgabenzerlegung, Reflexion usw.) zur Einbringung von System-2-Schlussfolgerungsfähigkeiten.
4) Automatische Sammlung von Interaktionsbahnen mit Hunderten von virtuellen Maschinen, Lösung des Datenschneckennackens durch mehrstufiges Filtern, Reflexion und Optimierung sowie direkte Präferenzoptimierung (DPO) zur Iterationsoptimierung des Modells.
Bei den GUI Agent Benchmarks hat die erste Version des UI-TARS bereits bahnbrechende Ergebnisse erzielt und mehrere SOTA-Positionen errungen.
Nach nur drei Monaten veröffentlichte das Team eine neue Open-Source-Version, UI-TARS-1.5.
Unter Beibehaltung der Grundarchitektur der Vorgängerversion hat UI-TARS-1.5 eine neue, durch Reinforcement Learning angetriebene Schlussfolgerungsmechanik hinzugefügt, die es dem Modell ermöglicht, vor der Ausführung einer Aktion durch einen Denkprozess zu schließen, was die Leistung und die Erweiterbarkeit der Schlussfolgerungsphase erheblich verbessert.
Bei mehreren Standard-Benchmarks hat UI-TARS-1.5 im Vergleich zu den Vorgängermodellen erhebliche Fortschritte erzielt.
Bei der GUI-Ortungsaufgabe hat es die SOTA-Position verbessert:
Zusätzlich führte das Team in den Tests eine neue Spielweise ein – lasste UI-TARS-1.5 Spiele spielen.
Das Team hat festgestellt, dass im Gegensatz zu Bereichen wie Mathematik oder Programmierung Spiele oft intuitive, gemeinplatzliche Schlussfolgerungen und strategisches Vorausschauen erfordern, was sie als Benchmark-Aufgaben geeignet macht.
Sie haben 14 Spiele von poki.com ausgewählt und getestet. Durch eine standardisierte Bewertung hat UI-TARS-1.5 in der Konkurrenz gegen OpenAI CUA und Claude 3.7 gewonnen.
Im September dieses Jahres hat die Veröffentlichung von UI-TARS-2 die Fähigkeiten des Agenten auf ein neues Niveau gehoben und auch den Doubao-Smartphone-Assistenten mit der Schlüsseltechnologie unterstützt.
UI-TARS-2 zielt darauf ab, dass der Agent eine echte autonome Interaktion mit der grafischen Benutzeroberfläche ermöglichen.
Es löst weiter die vier Probleme der Vorgängermodelle und der bestehenden GUI Agenten in Bezug auf die Datenerweiterbarkeit, die Stabilität des mehrstufigen Reinforcement Learnings (RL), die Beschränkungen der reinen GUI-Bedienung und die Umgebungsstabilität.
UI-TARS-2 basiert auf dem mehrstufigen Reinforcement Learning als Kern und erreicht durch vier Kerntechnologien einen Durchbruch:
Zunächst hat das Team einen erweiterbaren Daten-Flywheel (Data Flywheel) entworfen, der durch die zyklische Iteration von "kontinuierlicher Vorabtraining - überwachtes Feintuning - Ablehnungssampling - mehrstufiges RL" das Modell und die Trainingsdaten gemeinsam verbessert. Hochwertige Bahnen fließen in den Datensatz für das überwachte Feintuning, während niedrigwertige Bahnen dem Datensatz für das kontinuierliche Vorabtraining hinzugefügt werden, was einen selbstverstärkenden Kreis bildet.
Zweitens hat das Team ein Trainingsframework entwickelt, das in der langfristigen Zeitskala stabil optimiert werden kann, und mit zustandsbehafteter asynchroner Rollout, strömender Aktualisierung und verbessertem PPO das Problem der Optimierung von Langzeitaufgaben gelöst.
Außerdem hat UI-TARS-2 die Grenzen der reinen GUI-Bedienung überwunden und eine gemischte GUI-zentrierte Umgebung (Hybrid GUI-centered Environment) geschaffen.
Durch das SDK können das Dateisystem, Terminalbefehle und externe Tools integriert werden, so dass die Bedienung der grafischen Benutzeroberfläche mit Systemressourcen verbunden werden kann und nicht mehr auf die "simulierte Maus- und Tastaturbedienung" beschränkt ist.
Schließlich hat das Team auch eine einheitliche Sandbox-Plattform entwickelt, um heter