Die Universität von Hongkong arbeitet zusammen mit "The Dark Side of the Moon" und anderen an der Open-Source-Entwicklung von OpenCUA: Jeder kann sein eigenes Computersoftware-Agenten-Modell erstellen.
Gerade eben ist eine Studie von mehreren Institutionen, darunter dem XLANG Lab der Universität Hongkong und der Dark Side of the Moon, auf arXiv veröffentlicht worden. Darin wird ein vollständig quelloffener Rahmen zur Erstellung und Erweiterung von CUA (Computernutzungsagenten) vorgeschlagen. Genauer gesagt umfasst dieser Rahmen Folgendes:
- Ein Annotationstool zur Erfassung von Demonstrationen menschlicher Computernutzung
- AgentNet, der erste umfangreiche Datensatz, der 3 Betriebssysteme und über 200 Anwendungen/Webseiten abdeckt
- Einen Workflow zur Umwandlung von Demonstrationen in "Zustand-Aktion"-Paare mit langfristiger logischer Schlussfolgerung
Mithilfe dieses Rahmens haben sie auch ein Flaggschiffmodell namens OpenCUA-32B erstellt, das auf OSWorld-Verified eine Erfolgsrate von 34,8 % erreicht hat und damit einen neuen quelloffenen SOTA (State of the Art) setzt. Es übertrifft sogar GPT-4o in diesem Benchmark.
Noch besser ist, dass sie den zugehörigen Code, die Daten und das Modell vollständig öffentlich gemacht haben!
Titel der Studie: OpenCUA: Open Foundations for Computer-Use Agents
Link zur Studie: https://arxiv.org/abs/2508.09123
Projektseite: https://opencua.xlang.ai/ (enthält Tools, Modelle und Datensätze)
Es ist erwähnenswert, dass diese Studie von 6 Erstautoren gemeinsam verfasst wurde. Der Projektleiter ist Tao Yu (Yu Tao), ein Assistentprofessor für Informatik an der Universität Hongkong. Außerdem sind Yang Zhilin, Gründer und CEO der Dark Side of the Moon, und Yang Diyi, Assistentprofessor für Informatik an der Stanford University, in der Autorenliste enthalten.
Im Folgenden werfen wir einen genauen Blick auf diese Studie.
OpenCUA-Rahmen
Die folgende Abbildung zeigt eine Übersicht über den OpenCUA-Rahmen.
Genauer gesagt umfasst der OpenCUA-Rahmen Folgendes: Das AgentNet-Tool, wie links oben gezeigt, kann die Benutzerinteraktionen über verschiedene Betriebssysteme hinweg mithilfe von Bildschirmvideos und Arbeitsabläufen erfassen. Rechts oben wird gezeigt, wie die ursprünglichen Demonstrationen in "Zustand-Aktion"-Trajektorien mit Schlussfolgerungen und Verlauf verarbeitet werden. Rechts unten werden der AgentNet-Datensatz und der Benchmark gezeigt, der verschiedene Aufgaben abdeckt und eine Offlinebewertung mit Goldstandardaktionen bietet. Schließlich wird links unten gezeigt, dass das OpenCUA-Modell nach dem Training Computerbetriebsaufgaben in einer realen Umgebung ausführen kann.
AgentNet-Datensammlung
Das Ziel von OpenCUA ist es, die Daten der Desktopcomputernutzung auf verschiedene Computerenumgebungen und Benutzer-Szenarien auszuweiten. Natürlicherweise müssen das Team zunächst Demonstrationen sammeln, die natürlichen Benutzerverhaltens entsprechen, und die zusätzlichen Einschränkungen für die Art und Weise, wie Benutzer mit dem Computer interagieren, so gering wie möglich halten, um die Skalierbarkeit der Datensammlung zu verbessern.
Zu diesem Zweck haben sie das AgentNet-Tool entwickelt und den AgentNet-Datensatz gesammelt, der auch der erste umfangreiche Datensatz für Desktop-Agentenaufgaben ist.
AgentNet-Tool
Das AgentNet-Tool ist eine plattformübergreifende Annotationanwendung, die die Interaktionen der Benutzer auf Windows, macOS und Ubuntu aufzeichnet. Es kann Bildschirmvideos, Maus-/Tastaturaktionen und zugehörige Metadaten erfassen, um so die Erfassung von realen Demonstrationen der Computernutzung zu ermöglichen, und diese Methode ist massiv skalierbar.
Annotation und Validierung des AgentNet-Tools
Das Team hat die ursprünglichen Benutzerdemonstrationen verarbeitet und "Zustand-Aktion"-Trajektorien erhalten, die sauber und für das Training geeignet sind. Die generierten Trajektorien enthalten "innere Monologe" und Aktionenverläufe und eignen sich für das Training von visuell-sprachlichen Modellen.
Die ursprünglichen Demonstrationen enthalten hochfrequente Bildschirmaufnahmen und feingranulare Interaktionssignale (z. B. Mausbewegungen, Klicks, Scrollen, Tastendrücke usw.). Eine typische Aufgabe kann Tausende von unteren Ebenen-Aktionsaufzeichnungen erzeugen, was zu einer zu hohen Dichte und einer geringen TrainingsEffizienz führt. Um dieses Problem zu lösen, hat das Team zwei technische Lösungen vorgeschlagen:
1. Aktionsreduktion (Action Reduction)
Dies ist eine regelbasierte Methode, die das Team entwickelt hat, um die dichten Aktionssignale in weniger, aber bedeutendere Aktionen zu reduzieren, während die notwendigen Informationen beibehalten werden.
- Zusammenfassen von atomaren Aktionen zu höheren Ebenen-Aktionen;
- Betrachten von Mausbewegungen als Vorbedingung für Klicks/Ziehen und Beibehalten nur der Start- und Endpositionen;
- Zusammenfassen von Scrollereignissen nach Richtung und Summieren der Scrollradzählungen;
- Zusammenfassen von aufeinanderfolgenden Tastendrücken zu einem Text-Eingabestring und Abstrahieren von Tastenkombinationen (z. B. CTRL+C) als "Hotkey-Aktion";
- Zusammenfassen von häufigen Mehrschritt-Gesten (z. B. Ziehen, Doppelklick) zu einer einzigen Aktion.
Die reduzierte Aktionssequenz stimmt mit dem pyautogui-Aktionsraum überein (siehe Tabelle 1).
Tabelle 1: Menschliche Aktionen und entsprechende Agenten-Aktionsfunktionen
2. Zustand-Aktions-Zuordnung (State-Action Matching)
Um jede Aktion a_i einem repräsentativen Zustand s_i zuordnen zu können, hat das Team Schlüsselbilder aus den Bildschirmaufnahmen extrahiert, um den Systemzustand vor dem Auftreten der Aktion zu erfassen. Wenn jedoch die Schlüsselbilder direkt mit dem Zeitstempel des Mausklicks übereinstimmen, können zukünftige Informationen preisgegeben werden (z. B. wenn die Maus bereits über einer Schaltfläche schwebt, wird die Vorhersage zu einfach).
Um dieses Problem zu vermeiden, gehen sie bei der Verarbeitung von Mausklicks so vor, dass sie zum Zeitpunkt vor dem Beginn der Mausbewegung zurückkehren und dann nach dem letzten Bild mit sichtbaren Änderungen suchen, das als Startzustand für diese Aktion dient. Nach Abschluss der Aufgabe wird ein Endbild und die entsprechende "Endaktion" hinzugefügt.
AgentNet-Datensatz und Testbenchmark
Schließlich haben sie den AgentNet-Datensatz und den AgentNetBench-Testbenchmark erhalten.
Der Datensatz umfasst verschiedene offene Aufgabenbereiche aus über 140 Anwendungen und über 190 Webseiten. Die Aufgaben betreffen den Zusammenwirken von mehreren Anwendungen, die Bedienung professioneller Tools und die Nutzung von nicht-allgemeinen Funktionen. Der Benchmark bietet Aufgabenanweisungen, Verlaufsschritte und mehrere Goldstandardaktionen für jeden Schritt, um eine effiziente Offlinebewertung zu ermöglichen.
Abbildung 4: Aufgabenbereichsverteilung im AgentNet-Datensatz
Der Datensatz enthält insgesamt 22.625 handannotierte Computerbetriebsaufgaben, davon ca. 12.000 aus Windows, 5.000 aus macOS und 5.000 aus Ubuntu. Es werden Bildschirmauflösungen von 720p bis 4K unterstützt. Die durchschnittliche Anzahl der Schritte pro Trajektorie beträgt 18,6, was die Komplexität der Aufgaben widerspiegelt.
Wie in Tabelle 2 gezeigt, ist AgentNet im Vergleich zu den bestehenden GUI-Datensätzen der erste Datensatz auf Desktop-Ebene, der Realitätstreue, Komplexität, Vielfalt und multimodale Eigenschaften aufweist.
Tabelle 2: Vergleich des AgentNet-Datensatzes mit bestehenden GUI-Datensätzen
Um eine stabile, schnelle und umgebungskonfigurationsunabhängige Bewertung zu ermöglichen, haben sie auch AgentNetBench erstellt - einen Offline-Benchmark zur Bewertung von Computernutzungsagenten.
Dieser Benchmark besteht aus 100 repräsentativen Aufgaben aus dem AgentNet-Datensatz und deckt die Windows- und macOS-Plattformen ab. Die Aufgaben erstrecken sich über mehrere Anwendungsbereiche.
Das Team hat angegeben, dass jede Aufgabe manuell überprüft wurde, um das Aufgabenziel zu klären und redundante Aktionen zu entfernen. Es ist erwähnenswert, dass sie, angesichts der Tatsache, dass es bei Computerbetriebsaufgaben natürlich mehrere sinnvolle Handlungswege gibt, auch mehrere gültige Aktionsoptionen für jeden Schritt manuell angegeben haben, um die Flexibilität und Realitätstreue der Bewertung zu verbessern.
OpenCUA-Modell
Basierend auf dem obigen Datensatz hat das Team das OpenCUA-Agentenmodell entwickelt, das reflektierende logische Schlussfolgerungen, mehrere Bildverläufe und daten aus verschiedenen Bereichen kombiniert. Das Modell kann Computerbetriebsaufgaben in einer realen Desktopumgebung auf mehreren Betriebssystemen ausführen.
Es ist erwähnenswert, dass sie auch einen neuartigen Verarbeitungsworkflow entworfen haben, um für jeden Aufgaben-Schritt eine reflektierende lange logische Schlussfolgerung (reflective long CoT) zu stärken: Der "Generator" und der "Reflektor" generieren und validieren iterativ die Komponenten zwischen den Beobachtungsinformationen und den tatsächlichen Aktionen (ground-truth actions) während des Schlussfolgerungsprozesses.
Experimentelle Ergebnisse und Analyse
Die Experimente basieren auf mehreren quelloffenen visuell-sprachlichen Modellen, darunter KimiVL - A3B, Qwen2 - VL - 7B - Instruct, Qwen2.5 - VL - 7B - Instruct und Qwen2.5 - VL - 32B - Instruct.
Von diesen verwendet KimiVL - A3B eine Mixed - Experts (MoE) - Architektur und hat insgesamt 16 Mrd. Parameter. Bei Training und Inferenz werden 3 Mrd. Parameter aktiviert. Es verfügt über gewisse Fähigkeiten in der Computerbedienung, wie z. B. Objektortung und Aufgabenplanung.
Qwen2 - VL und Qwen2.5 - VL sind allgemeine visuell - sprachliche Modelle (VLM). Qwen2.5 - VL zeigt in Digital - Agentenaufgaben eine stärkere Leistung und ist besonders gut in der Verständnis von Hochauflösungsszenarien.
Das Team hat die obigen Modelle unter Überwachung feinjustiert und mehrere OpenCUA - Modellvarianten erhalten: OpenCUA - A3B, OpenCUA - Qwen2 - 7B, OpenCUA - 7B und OpenCUA - 32B.
Dann haben sie diese Modelle an mehreren Benchmarks bewertet, darunter Online - Agenten - Benchmarks, Offline - Agenten - Bewertungsbenchmarks und GUI - Ortungsfähigkeits - Bewertungsbenchmarks.
Online - Agentenbewertung
- OSWorld - Verified: OSWorld hat ursprünglich 369 manuell erstellte Aufgaben gesammelt und zusammengestellt, die viele Anwendungen abdecken und mit entsprechenden Umgebungs - Konfigurationen und Bewertungsskripten versehen sind. Das OSWorld - Team hat diese Aufgaben kürzlich überprüft, die aufgrund veralteter Abhängigkeiten, fehlerhafter Bewertungen oder unklarer Anweisungen nicht testbaren Projekte behoben und den verbesserten Benchmark als OSWorld - Verified veröffentlicht. Die Bewertungsergebnisse wurden über die öffentliche Bewertungsplattform des OSWorld - Teams, die auf AWS - Infrastruktur deployed ist, erhalten. Die Ergebnisse sind in Tabelle 3 aufgeführt.
- WindowsAgentArena (WAA): Dieser Benchmark enthält 154 Windows - zentrierte