OpenClaw hat endlich Hände und Augen bekommen. Peter hat offiziell Peekaboo v3 veröffentlicht und dreimal am Tag aktualisiert.
【Einführung】Das exklusive Computer Use - Tool Peekaboo v3 von OpenClaw ist offiziell zurück und wird nach der Veröffentlichung häufig aktualisiert. Es füllt die fehlende Schlüsselkomponente von OpenClaw auf, sodass die KI nicht nur Nachrichten beantworten kann, sondern auch den Bildschirm betrachten, Buttons drücken und die echte Arbeitsfläche bedienen kann.
OpenClaw bekommt endlich Augen und Hände!
https://x.com/steipete/status/2053114837698249190
In den letzten Monaten war die Popularität von OpenClaw wie ein frisch gekochter Topf Wasser. Zunächst sprudelte es, und dann kehrte es allmählich in die Ruhe zurück.
Das Projekt lief, die Benutzer begannen es zu nutzen, und die Diskussion wechselte von „Was ist das?“ zu „Was kann es noch tun?“
Zu diesem Zeitpunkt tauchte ein altes Problem, das beiseite gelegt worden war, erneut auf.
Die KI kann Nachrichten empfangen, Befehle verstehen und Tools nutzen. Im nächsten Schritt muss sie schließlich die reale Welt berühren.
Buttons, Menüs, Pop - Ups und Eingabefelder auf der Arbeitsfläche sind die letzte Meile für die meisten Arbeiten.
Ein Agent, der nur in einem Chatfenster Vorschläge geben kann, ist wie jemand, der auf dem Beifahrersitz navigiert. Er weiß zwar, wohin es geht, kann aber das Lenkrad nicht greifen.
Genau zu diesem Zeitpunkt kehrte Peekaboo zurück.
Der Name an sich ist schon etwas verspielt. Peekaboo bedeutet „Kuckuck“.
Die Computeroberfläche spielt tatsächlich ständig Verstecken - und - Finden mit der Automatisierung.
Buttons verstecken sich in Pop - Ups, Menüs in der Systemleiste. Wenn sich ein Fenster bewegt, ändern sich alle Koordinaten, und wenn der Fokus wechselt, geht die Eingabe verloren.
Menschen korrigieren das intuitiv, die KI benötigt jedoch zuverlässigere „Augen“ und „Hände“.
Heute füllt Peekaboo genau diese Lücke.
Von der Aktualisierungsunterbrechung bis zu dreimal täglich
Nach der Veröffentlichung der Version v3.0.0 - beta 3 Ende des vergangenen Jahres wurde Peekaboo nicht mehr aktualisiert.
Anschließend richtete Peter seinen Hauptfokus auf OpenClaw.
Das ist verständlich, denn OpenClaw ist ein viel umfangreicheres Netzwerk. Es muss Nachrichtenplattformen anbinden, einen Gateway aufbauen, die lokale Ausführung verwalten, die Agentenverwaltung unterstützen und es muss für normale Benutzer einfach zu installieren, stabil laufen und einfach zu bedienen sein.
Daher trat Peekaboo vorübergehend in den Hintergrund.
Die Veränderung ereignete sich in den letzten zwei Wochen.
Die Version v3.0.0 - beta 4 wurde zunächst als Test veröffentlicht.
Vorgestern wurde die finale Version v3.0.0 veröffentlicht.
Nach der Veröffentlichung der finalen Version hat die Aktualisierungsgeschwindigkeit rapide zugenommen. Heute wurden die Versionen v3.1.0, v3.1.1 und v3.1.2 nacheinander veröffentlicht.
Eine solche Aktualisierungsdichte hat normalerweise nur zwei Gründe.
Entweder ist ein schwerwiegender Bug aufgetreten, und die Entwickler versuchen, das Problem zu beheben.
Oder die Richtung stimmt endlich überein, und die langsam gesammelten Ressourcen werden freigesetzt.
Bei Peekaboo handelt es sich eher um letzteres.
In den letzten Monaten hat OpenClaw die Infrastruktur für Kanäle, Gateways und Agenten aufgebaut.
Jetzt beginnt das Projekt, die wichtigsten Lücken zu schließen.
Was füllt Peekaboo eigentlich auf?
Für normale Benutzer kann Peekaboo am besten als ein macOS - Automatisierungstool verstanden werden.
Es kann Screenshots machen, Fenster erkennen, UI - Elemente lesen, Buttons finden, klicken, tippen, scrollen, Anwendungen wechseln und Menüs bedienen.
Traditionelle Skripte fürchten die Änderungen der Umgebung am meisten.
Wenn sich die Position eines Buttons ändert, ein Fenster verdeckt wird oder ein Pop - Up plötzlich erscheint, stürzt das Skript wie jemand, der eine Stufe verpasst, in einen Fehlerzustand.
Für Agenten ist es noch schwieriger, denn sie müssen während des Arbeitens sehen, denken und handeln. Wenn sie an irgendeiner Stelle etwas falsch sehen, klicken oder warten, geht alles danach falsch.
Der Wert von Peekaboo liegt darin, die Arbeitsfläche in ein Arbeitsfeld zu verwandeln, das der Agent verstehen kann.
Es macht nicht nur einen Screenshot für das Modell, sondern ordnet auch die Beziehungen zwischen Steuerelementen, Fenstern, Texten und Buttons im Bild. Dadurch entsteht eine nachverfolgbar, wiederholbar und weiter bearbeitbare Aufzeichnung des Arbeitsfelds.
Die KI sieht nicht mehr nur Pixel, sondern eine strukturierte Karte der Arbeitsfläche.
Das ist wie jemand, der ein Kochbuch lesen kann, aber erst mit Küchenlicht, Schneidebrett und Pfanne tatsächlich kochen kann. Ohne diese Dinge bleibt die Kochkunst nur auf der Ebene der Theorie. Mit ihnen wird es möglich, das Feuer anzuzünden.
Warum wird es jetzt wichtig?
Peekaboo ist nicht aus dem Nichts gekommen.
Die erste Version wurde bereits im Juni des vergangenen Jahres veröffentlicht. Das Problem war, dass die Fähigkeiten der damaligen Modelle noch nicht ausgereift waren.
Visuelle Modelle können Bilder betrachten, aber sie können möglicherweise nicht stabil komplexe Oberflächen verstehen.
Computer - Use - Fähigkeiten können Aktionen ausführen, aber es ist oft wie jemand, der das erste Mal ein Trackpad benutzt. Die Bewegungen sind ungewöhnlich, die Person ist unsicher und manchmal behandelt sie den Browser wie ein Skateboard.
Die jüngsten Veränderungen liegen darin, dass sowohl die visuelle Fähigkeit des Modells als auch die Computer - Use - Fähigkeit einen kritischen Punkt überschritten haben.
Einzelne Verbesserungen scheinen nur wie eine bessere Erkennung, genauere Klicks oder ein besseres Verständnis, aber zusammen bewirken sie eine qualitative Veränderung der Benutzererfahrung.
Der Agent kann nicht nur gelegentlich eine Demonstration machen, sondern beginnt sich einer kontinuierlichen Arbeitsweise zu nähern.
Zu diesem Zeitpunkt wird der Wert der unterliegenden Automatisierungstools vergrößert.
Das Modell muss stabilen Input und eine stabile Ausführung haben, auch wenn es sehr intelligent ist.
Ohne eine Brücke wie Peekaboo bleibt das Verständnis der KI für die Arbeitsfläche auf die Beantwortung von Fragen zu Screenshots beschränkt.
Es kann sagen, was auf dem Bildschirm ist, aber es kann möglicherweise nicht zuverlässig den nächsten Schritt ausführen.
Peekaboo verbindet das „Sehen“ und das „Handeln“.
Warum braucht OpenClaw es?
Das Einzigartige an OpenClaw war zunächst, dass es Agenten in verschiedene Nachrichtenkanäle integrierte.
Benutzer können Aufgaben über Telegram, Slack, iMessage, WhatsApp und ähnliche Plattformen starten.
Dieses Design löst ein reales Problem - Menschen sind zu faul, für jede KI eine neue Website zu öffnen, und sie möchten nicht ständig zwischen verschiedenen Tools hin und her wechseln.
Der bequemste Zugangspunkt ist oft der Chatfenster.
Aber der Chatfenster ist nur der Zugang. Die echten Arbeitsbereiche befinden sich oft auf dem Computer.
Man muss eine Web - Backend verwalten, eine lokale Anwendung überprüfen, einen Simulator ausführen, ein Formular ausfüllen, eine Konfigurationseinstellung ändern oder eine Fehlerscreenshot betrachten.
OpenClaw kann die Aufgabe übernehmen, und der Agent kann Schritte entwickeln. Aber ohne eine lokale Ebene, die den Bildschirm bedienen kann, muss es die Schritte schließlich an den Benutzer zurücksenden, damit dieser selbst tätig wird.
Das ist unangenehm.
Der Benutzer ruft einen Assistenten, und am Ende bekommt er nur eine To - Do - Liste.
Nach der Integration von Peekaboo ändert sich die Rolle von OpenClaw.
Es ist nicht nur ein Nachrichten - Gateway für mehrere Kanäle und nicht nur ein Steuerungssystem für Agenten.
Es hat die Chance, ein System zu werden, das tatsächlich Aufgaben auf dem lokalen Rechner erledigen kann.
Kurz gesagt, OpenClaw kümmert sich um „Wer wendet sich an mich?“, „Was muss getan werden?“ und „Welchem Agenten soll die Aufgabe zugewiesen werden?“, während Peekaboo sich um „Was ist auf dem Bildschirm?“, „Wo ist der Button?“ und „Wohin soll der Schritt gehen?“ kümmert.
Entwicklungstool mit großem Potenzial
In der Community hat jemand Peekaboo verwendet, um einen Remote - iOS - Simulator im Browser anzusteuern.
Der Ablauf ist ungefähr wie folgt: Zunächst lässt man Peekaboo einen Screenshot einer mobilen Anwendung analysieren. Es erkennt, dass es die Willkommensseite von Little Vault ist. Auf der Seite gibt es das Anwendungslogo, den Titel, einen Slogan über private Erinnerungen, den Hauptbutton zum Erstellen eines Vaults, den Einloggeingang und den Sprachauswahlreiter in der oberen rechten Ecke.
Anschließend registriert man diesen Bildschirm, klickt auf „Create Your Vault“, wartet auf die Änderung der Oberfläche, macht einen neuen Screenshot und setzt die Exploration fort.
Diese Demonstration ist interessant, weil sie nicht nur zeigt, dass die KI ein Bild versteht. Der wirklich entscheidende Teil ist der zweite Abschnitt.
Nachdem es das Bild verstanden hat, muss es den Bildschirm als einen Zustand registrieren, ein Ziel auswählen, einen Klick ausführen, auf die Rückmeldung warten und auf Grundlage des neuen Screenshots weiterarbeiten.
Jeder Schritt kann fehlschlagen, und jeder Schritt kann aufgezeichnet werden.
Dies ist die Grenze, an der der Agent von einem Spielzeug zu einem Werkzeug wird.