Google tritt in das Schlachtfeld der CUA ein und veröffentlicht Gemini 2.5 Computer Use: Lassen Sie KI direkt den Browser bedienen
Das Computer Use - Modell von Google ist da!
Heute in der frühen Morgenstunde hat Google DeepMind das auf Gemini 2.5 basierende Computer - Nutzungsmodel Gemini 2.5 Computer Use sensationell vorgestellt.
Angesichts der Tatsache, dass Google erst vor einigen Tagen Chrome DevTools (MCP) veröffentlicht hat, ist die Entstehung von Gemini 2.5 Computer Use nicht besonders überraschend. Einfach ausgedrückt: Ähnlich wie OpenAIs Computer - Using Agent (CUA) kann DeepMinds Modell den Browser des Nutzers direkt steuern. Auf der Grundlage von visuellem Verständnis und logischem Denken kann dieses Modell dem Nutzer beim Ausführen von Aktionen wie Klicken, Scrollen und Eingeben im Browser helfen.
Schauen wir uns zunächst zwei offizielle Demos an.
Anweisung: Von https://tinyurl.com/pet - care - signup alle Details für jedes Haustier mit einer kalifornischen Residenz abrufen und sie als Gast in meinem Spa - CRM unter https://pet - luxe - spa.web.app/ hinzufügen. Dann einen Folgebesuchstermin mit der Fachkraft Anima Lavar für den 10. Oktober jederzeit nach 8 Uhr morgens vereinbaren. Der Grund für den Besuch ist der gleiche wie die angeforderte Behandlung.
Anweisung: Mein Kunstklub hat vor unserer Messe Aufgaben besprochen. Die Tafel ist chaotisch und ich brauche Ihre Hilfe, die Aufgaben in einige von mir erstellte Kategorien zu ordnen. Gehen Sie auf sticky - note - jam.web.app und stellen Sie sicher, dass die Notizen eindeutig in den richtigen Abschnitten sind. Ziehen Sie sie dorthin, wenn nicht.
Man kann sehen, dass Gemini 2.5 Computer Use sowohl bei der Sammlung von Netzwerkinformationen und der Ausführung von Aktionen als auch bei der Organisation von ungeordneten Notizen die Aufgaben sehr genau und auch ziemlich schnell erledigt.
Bei den relevanten Benchmarks hat Gemini 2.5 Computer Use auch Leistungswerte erreicht, die auf dem Stand der Technik (SOTA) liegen:
Außerdem ist seine Geschwindigkeit besser als die einiger anderer verglichener Modelle:
Derzeit können Entwickler diese Funktionen über die Gemini - API von Google AI Studio und Vertex AI nutzen. Benutzer können sie auch in der von Browserbase gehosteten Demoumgebung testen (maximal 5 Minuten Laufzeit werden unterstützt und der Benutzer kann die Steuerung nicht mitten im Prozess übernehmen): https://gemini.browserbase.com/
MachineHeart hat einige Versuche in dieser Demoumgebung unternommen. Insgesamt hat Gemini 2.5 Computer Use bei einfachen Aufgaben eine hohe Genauigkeit, scheitert jedoch leicht bei etwas komplexeren Aufgaben.
Beispielsweise hat das Modell bei der einfachen Aufgabe, die John - Wick - Seite auf Wikipedia zu finden, sehr gut abgeschnitten.
Aber sobald die Aufgabe etwas komplexer wird, scheitert das Modell. Beispielsweise bei der Aufgabe, die John - Wick - Seite auf Wikipedia zu finden, deren Informationen zusammenzufassen und eine chinesische Version bereitzustellen. Außerdem konnten Aufgaben wie "Die offizielle Nobelpreissite öffnen und die Zeitplanung für die diesjährigen Nobelpreisankündigungen angeben" und die folgende Aufgabe nicht erfolgreich erledigt werden.
Anweisung: Durchsuchen Sie jiqizhixin.com, finden Sie die Berichte über Gemini aus den letzten sechs Monaten, ordnen Sie sie in eine Markdown - Datei und fassen Sie sie zusammen.
Außerdem hat DeepMind die Systemkarte für Gemini 2.5 Computer Use veröffentlicht:
https://storage.googleapis.com/deepmind-media/Model - Cards/Gemini - 2 - 5 - Computer - Use - Model - Card.pdf
Funktionsweise von Gemini 2.5 Computer Use
Die Kernfähigkeit dieses Modells wird durch das neue computer_use - Werkzeug in der Gemini - API realisiert. Entwickler müssen es in einem Schleifenprozess (loop) ausführen.
Die Eingabe sollte Folgendes enthalten:
Benutzeranfrage;
Ein Screenshot der aktuellen Umgebung;
Der Verlauf der zuletzt ausgeführten Aktionen.
Außerdem kann in der Eingabe angegeben werden, ob bestimmte Funktionen aus den standardmäßig unterstützten UI - Aktionen ausgeschlossen werden sollen und ob benutzerdefinierte Funktionen hinzugefügt werden sollen.
Arbeitsablauf des Gemini 2.5 Computer Use - Modells
Nach der Analyse dieser Eingaben generiert das Modell eine Antwort, normalerweise ein Funktionsaufruf, der eine UI - Aktion darstellt (z. B. Klicken oder Eingeben). Bei bestimmten Aktionen (z. B. Kaufvorgängen) fordert das Modell auch die Bestätigung des Benutzers an. Der Client führt dann diese Aktionen aus.
Nach der Ausführung der Aktionen sendet das System den neuesten Screenshot und die aktuelle URL als Funktionsantwort an das Modell, wodurch die Schleife neu gestartet wird.
Dieser iterative Prozess wird fortgesetzt, bis die Aufgabe abgeschlossen ist, ein Fehler auftritt oder er aufgrund eines Sicherheitsmechanismus oder einer Entscheidung des Benutzers beendet wird.
Google hat angegeben, dass das aktuelle Gemini 2.5 Computer Use - Modell hauptsächlich für Webbrowser optimiert ist, aber auch großes Potenzial bei der Steuerung von mobilen UIs zeigt. Es ist jedoch noch nicht für die Steuerung auf Betriebssystemebene von Desktopcomputern optimiert.
Entwurf des Sicherheitsmechanismus
Google hat auch in einem Blogbeitrag über den Entwurf des Sicherheitsmechanismus für dieses Modell berichtet.
Google sagt: "Das verantwortungsvolle Bauen von Agenten ist der einzige Weg, um die Vorteile von KI für alle Nutzer nutzbar zu machen. KI - Agenten, die direkt Computer bedienen können, bringen spezifische Risiken mit sich, einschließlich böswilliger Nutzung durch Benutzer, unerwartetem Verhalten des Modells sowie Prompt - Injection und Betrug in der Webbrowserumgebung. Daher legen wir beim Entwurf großen Wert auf die Sicherheitslage."
Bei dem Gemini 2.5 Computer Use - Modell hat Google direkt in die Trainingsphase Sicherheitsmechanismen integriert, um drei Hauptrisiken anzugehen (siehe Systemkarte für Details).
Außerdem bietet Google Entwicklern Sicherheitskontrolloptionen an, um zu verhindern, dass das Modell automatisch potenziell hochriskante oder schädliche Aktionen ausführt, wie z. B.:
Die Beeinträchtigung der Systemintegrität;
Die Gefährdung der Sicherheit;
Das Umgehen von Captchas;
Die Steuerung von medizinischen Geräten.
Die von Google implementierten Kontrollmaßnahmen umfassen:
Schritt - für - Schritt - Sicherheitsdienst (Per - step Safety Service): Während der Inferenzphase wird jede vom Modell vorgeschlagene Aktion von einem unabhängigen Sicherheitsdienst bewertet.
Systemanweisungen (System Instructions): Entwickler können festlegen, dass der Agent bestimmte hochriskante Aktionen ablehnen oder die Bestätigung des Benutzers anfordern muss.
Fazit
Mit Gemini 2.5 Computer Use hat Google DeepMind eindrucksvoll seinen Einstieg in das Feld gemacht. Es hat nicht nur in mehreren Benchmarktests führende Leistungen gezeigt, sondern auch den Wettbewerb im Bereich der KI - Agenten in die heiße Phase gebracht.
Von OpenAI über Anthropic bis hin zu Google bemühen sich die Technologiegiganten darum, die Zukunft unserer Interaktion mit Computern zu definieren. Obwohl das aktuelle Modell noch unausgereift ist, wenn es um komplexe reale Aufgaben geht, ist dies genau das, was die Zeit vor der technologischen Revolution ausmacht. Was wir heute sehen, ist nicht nur ein neues Modell, sondern auch ein deutliches Signal: Die Dominanz von Tastatur und Maus wird herausgefordert, und eine Zeit, in der die digitale Welt direkt über natürliche Sprache gesteuert wird, rückt immer näher.
Referenzlinks
https://blog.google/technology/google - deepmind/gemini - computer - use - model/
https://x.com/GoogleAIStudio/status/1975648565222691279
https://x.com/GoogleDeepMind/status/1975648789911224793
Dieser Artikel stammt aus dem WeChat - Account "MachineHeart" (ID: almosthuman2014). Autor: CUA - Interessierter. Veröffentlicht von 36Kr mit Genehmigung.