StartseiteArtikel

OpenClaw hat diskret eine sensationelle Version aktualisiert. Die Hummer haben längere Beine und Krallen bekommen.

量子位2026-05-12 12:01
Man kann Texte eingeben, Tastenkombinationen drücken und per Scrollen und Ziehen arbeiten.

Freunde, ich frage leise: Wird noch jemand auf die Aktualisierung von OpenClaw geachtet?

Es spielt keine Rolle, ob man darauf achtet oder nicht. Wichtig ist, dass ich euch mitteilen kann, dass die Hummer gerade Beine und Arme bekommen hat!

Es ist immer noch der Hummer-Vater Peter. Diesmal bringt er die neue Computer Use - Tool Peekaboo v3 Version mit sich -

Er löst direkt das Problem, dass die Agent - Produkte in der Vergangenheit nur einfache Aufgaben ausführen konnten, aber nicht direkt den Desktop steuern konnten, auf einmal: All - in

Peekaboo v3 kann nicht nur Pixel - genaue Screenshots auf einem MAC - Computer machen, sondern auch die Position jeder UI auf dem Computer auslesen.

Immerhin kann es fast alle Operationen ausführen, die ein Mensch ausführen kann, wie z. B. Klicken, Texteingabe, Tastenkombinationen drücken und so weiter...

Der folgende Netizen hat Peekaboo v3 einfach einen einfachen "Computer Use" - Rauchtest durchführen lassen.

Er hat Hermes den Taschenrechner bedienen lassen, Peekaboo das Bildschirmresultat auslesen lassen und Python die Antwort unabhängig überprüfen lassen. Alles in einem Zug erfolgreich abgeschlossen.

Als er sich in Fahrt brachte, konnte man ihn nicht aufhalten. Er hat sofort ein Versprechen abgegeben:

Spassig, spassig. Als nächstes werde ich Peekaboo noch automatisch die E - Mails suchen lassen, die ich früher geschrieben habe! (Probierphase...)

Es hat nun Augen, Beine und Arme. Kann dieser Hummer jetzt tatsächlich für uns auf unserem Mac arbeiten?

Der Hummer hat jetzt auch "Hände" und "Füsse" bekommen

Tatsächlich ist Peekaboo (Übersetzung: "Kuckuck") kein neues Produkt.

Schon bevor OpenClaw richtig populär wurde, um November letzten Jahres, hatte Peter die Idee, dem Agent Beine und Arme zu geben.

Damals hat er nacheinander mehrere Testversionen von v3.0.0 - beta1 bis beta4 entwickelt, was fast ein halbes Jahr gedauert hat.

Bis in die letzten Tage (ich sage das nur so, vielleicht hat er gedacht, dass der Hummer sonst vergessen würde) hat er direkt den "Super - Update - Modus" aktiviert.

v3.1.0, v3.1.1, v3.1.2 - es beginnt eine wilde Aktualisierung...

Dann die Frage: Was genau ist dieses "Kuckuck", Peekaboo?

Kurz gesagt: Es ist ein Toolkit, das deinem Mac Augen und Hände gibt, sodass der AI - Agent den Bildschirm sehen und die Maus und die Tastatur bedienen kann. (Kurzfassung)

Wer schon mal mit Hummer - oder Agent - Produkten gearbeitet hat, wird vielleicht einen Fehler feststellen -

Der Agent kann uns zwar helfen, Webseiten zu öffnen und Prozesse ablaufen zu lassen, aber wenn es um feinere Bildschirmoperationen geht, wie z. B. einen Button drücken, eine Datei ziehen, Text in ein Eingabefeld schreiben...

Es "tut so, als ob es blind wäre", und wir müssen am Ende die letzten Schritte selbst erledigen.

Peter, der das nicht mehr ertragen kann, weiß genau, dass der AI, um auf dem Mac arbeiten zu können, ein Tool braucht, das den Bildschirm sehen und die Maus und die Tastatur bedienen kann. Genau das ist Peekaboo.

Was bei Peekaboo v3 gemacht wurde, ist, diese Wand zu durchbrechen:

Der Agent kann jetzt wirklich sehen und wirklich handeln. Er wird von einem anweisenden Auftraggeber zu einem Arbeiter, der tatsächlich die Arbeit erledigt. (lol)

Zuerst die "Seh" - Fähigkeit.

Peekaboo v3 kann nicht nur Pixel - genaue Screenshots von Fenstern, Vollbild und Menüleiste machen, sondern auch die Position, den Typ und die Bezeichnung jedes UI - Elements auf macOS auslesen. Es kann wirklich alles auf dem Bildschirm erkennen.

Dann die "Bewegungs" - Fähigkeit.

Wie Klicken, Texteingabe, Tastenkombinationen drücken, Scrollen, Ziehen, Fenster wechseln, Desktop wechseln (Space), Dock anklicken, System - Pop - ups klicken...

Alles, was ein Mensch normalerweise auf einem Mac macht, kann es jetzt selbst tun. Es kann wirklich fleißig arbeiten.

Aber es reicht nicht, dass der Agent nur sehen und bewegen kann. Das, was Peekaboo v3 wirklich beeindruckend macht, ist noch "weiter unten" -

Beim Aufrufen von Funktionen unterstützt es den Natural Language Agent - Modus, sodass wir bei den Hinweis - Befehlen einfach normale Sätze verwenden können, um Aufgaben zuzuweisen.

Ein zweites sehr nützliches und intelligentes Design ist, dass alle Funktionen in ein MCP gepackt werden können und an deine gängigen AI - Tools übergeben werden können.

Beispielsweise, wenn wir in Cursor Code schreiben und ein UI - Fehler auftritt, mussten wir früher selbst einen Screenshot machen und Cursor senden, damit es ihn sieht.

Aber jetzt kann Cursor selbst einen Screenshot machen, ihn selbst betrachten, den Code selbst ändern und ihn selbst erneut ausführen, um die Korrektheit zu überprüfen. Wir müssen wirklich gar nicht eingreifen.

(Der Name "Kuckuck" ist noch zu bescheiden. Es scheint eher ein "Spinnennetz" zu sein... Es kann so viele Produkte unterstützen...)

Die richtige Art, Peekaboo v3 zu nutzen

Die Frage, die die Freunde sehr interessiert, ist: Wie nutzt man Peekaboo v3?

Die gute Nachricht ist, dass Peekaboo für dieselben Funktionen vier verschiedene "Öffnungsarten" bereitgestellt hat.

Code - Schreiber, AI - Programmierer, normale Mac - Benutzer und App - Entwickler können jeweils das bekommen, was sie brauchen. Es ist nach Belieben möglich!

Erstens, wenn du vor dem Bildschirm sitzt und Skripte automatisieren möchtest, kannst du einfach die Homebrew - Installationsmethode verwenden:

  • brew install steipete/tap/
  • peekaboopeekaboo --version

Zweitens, wenn du täglich AI - Programmiertools wie Claude Code, Cursor, Codex verwendest.

Dann ist das am besten, denn Peekaboo kann direkt als MCP - Server integriert werden:

  • npx -y @steipete/peekaboo mcp

Drittens, wenn du ein normaler Mac - Benutzer bist und keine Befehlszeilen magst -

Du kannst die Mac - Desktop - App von GitHub Releases herunterladen. Es gibt visuelle Rückmeldungen, und die Berechtigungsverwaltung ist auch grafisch. Es ist sehr benutzerfreundlich.

Viertens, wenn du ein Swift - Entwickler bist und es als Bibliothek in deine eigene App einbinden möchtest, kannst du einfach Swift Package verwenden.

Übrigens, für die Freunde, die die Funktionen in OpenClaw nutzen möchten, können sie einfach "Skill" verwenden.

Das ist wie ein Plugin für den Hummer, um den Mac zu bedienen. Nach der Installation werden die Mac - Berechtigungen wie Bildschirmaufzeichnung und Hilfsfunktionen über OpenClaw auf einmal genehmigt. Man muss nicht nochmal für Peekaboo die Berechtigungen geben.

Schließlich möchte ich sagen, dass es eigentlich verständlich ist, dass Peter so eilig eine große Aktualisierung vornimmt...

In den letzten zwei Jahren haben sich viele Tools wie Anthropics Computer Use, OpenAIs eigenes Operator und verschiedene browser - use - Tools um die "AI - Steuerung des Computers" herum gerungen.

Das Gebiet der Open - Source - Agenten wird heiß, und es beginnen viele Computer Use - Alternativen aufzutauchen.

Er muss schnell sein, um nicht von Nachfolgern eingeholt zu werden. Vielleicht bietet er sich damit auch eine stärkste lokale Überprüfungsplattform für seine Agent - Arbeit bei OpenAI?

(Diese "innere und äußere Verbesserung" - Strategie ist gut, genial)

Eine Reihe von Links zu Peekaboo v3 sind unten aufgeführt. Interessierte Freunde können es ausprobieren!

Referenzlinks:

[1]https://peekaboo.sh/

[2]https://github.com/openclaw/Peekaboo

[3]https://x.com/search?q=Peekaboo&src=typed_query

Dieser Artikel stammt aus dem WeChat - Public Account "Liangziwei", Autor: Mengyao. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.