Ein unendlicher Canvas in Codex: KI-Bildbearbeitung an der gewünschten Stelle

Codex wird zur KI-«Arbeitsplattform» für Arbeitnehmer

Wenn man mit Coding Agents wie Codex oder Claude Code kommuniziert, ist es oft so, als stünde man am Wünschebrunnen und warfe Münzen auf die Schildkröten im Brunnen, während man vor sich hin murmelte. Und das Interessante ist, dass es tatsächlich die Wünsche erfüllt.

Deshalb ist die Begeisterung, die Codex bei vielen Leuten, die keine Programmierkenntnisse haben, auslöst, augenscheinlich –

Es lässt Menschen zum ersten Mal das Gefühl haben, dass sie den Computer befehlen können.

https://x.com/zhongerxin/status/2068027614300893383

Seit den letzten sechs Monaten werden die Anwendungsfälle von Codex in den sozialen Medien immer ausgefallener. Manche lassen es Webseiten erstellen, andere Berichte erstellen oder Dateien verwalten. Ein Nutzer namens @zhongerxin hat sogar eine noch anschaulichere Anwendungsmöglichkeit entwickelt:

Den Canvas in Codex einfügen.

Er hat auf Basis von tldraw ein lokales Plugin namens Cowart entwickelt, das einen unendlichen Canvas bietet. Dadurch kann Codex nicht nur Textanweisungen lesen, sondern auch Pfeile, Anmerkungen und Positionsmarkierungen auf dem Canvas sehen. Dies ermöglicht es dem KI-System, gezielt Bilder zu bearbeiten.

Den Chatfenster verlassen, der Canvas ist das Verheißungsland der KI

Bevor ich Cowart vorstelle, muss ich kurz auf tldraw eingehen.

tldraw kann als eine unendliche Whiteboard-App in einem Browser verstanden werden.

Es basiert auf React und bietet einen vollständigen Canvas-Engine. Es verfügt über integrierte Whiteboard-Tools, druckempfindliches Zeichnen, geometrische Formen, Rich-Text, Pfeile, Form-Anpassung, Bild- und Videounterstützung sowie die Möglichkeit, Bilder zu exportieren.

Github-Adresse 🔗 https://github.com/tldraw/tldraw

Entwickler können auf Basis von tldraw benutzerdefinierte Formen, Tools, Bindungen und UI-Komponenten erstellen und es zu verschiedenen Arten von Canvas-Anwendungen erweitern.

Cowart erstellt auf Basis von tldraw einen lokalen, visuellen Canvas, auf dem Benutzer Ideen entwickeln, Bilder markieren und generieren können. Anschließend können sie die Markierungen an Codex weitergeben, um das Bild zu bearbeiten.

Die Verwendung ist nicht kompliziert.

Beim Installieren von Cowart kann man Codex einfach den folgenden Text senden, damit es die Installation des Plugins automatisch durchführt:

Bitte installiere das Cowart Codex-Plugin von https://github.com/zhongerxin/cowart.git.

Klone das Repository in das Verzeichnis ~/plugins/cowart und stelle sicher, dass die Datei .codex-plugin/plugin.json vorhanden ist.

Füge das Plugin in den persönlichen Marktplatz ein. Führe zunächst den Befehl codex plugin marketplace add ~ aus.

Dann führe den Befehl codex plugin add cowart@personal aus.

Nach der Installation überprüfe das Plugin und teile mir mit, ob ich eine neue Konversation starten muss, um die neuen Fähigkeiten und das MCP-Tool zu laden.

Nach der Installation muss man normalerweise eine neue Codex-Konversation starten, damit die neuen Fähigkeiten und das MCP-Tool vollständig geladen werden. Beim Verwenden kann man einfach in Codex eingeben:

Öffne den Cowart-Canvas für mich.

In der Praxis startet Cowart einen lokalen Webserver und gibt in der Konversation einen Vorschau-Link. Anschließend sind die nächsten Schritte sehr einfach.

Beispielsweise kann man das Cowart-Plugin aufrufen, indem man in der Konversation eingibt:

Generiere für mich ein Ölgemälde der Mona Lisa im originalen Stil von Leonardo da Vinci

Anschließend generiert Codex ein Bild und fügt es in den Cowart-Canvas ein. Im rechten Canvas kann man das generierte Bild der Mona Lisa sehen. Weitere Bearbeitungen können direkt an diesem Bild vorgenommen werden.

Als nächstes mache ich zwei Markierungen im Cowart-Canvas an diesem Bild.

An der ersten Stelle zeichne ich einen Pfeil an die Augen des Porträts und schreibe „Brille auf die Augen setzen“. An der zweiten Stelle zeichne ich einen Pfeil an die Hand und schreibe „eine Tasse Saft in der Hand halten“.

Nachdem ich die Markierungen vorgenommen habe, sende ich das markierte Cowart-Bild an Codex und gebe ein:

Verwende mein markiertes Cowart-Bild, um ein sauberes, bearbeitetes Bild zu generieren und es neben das Originalbild zu platzieren.

Codex generiert anschließend ein neues, bearbeitetes Bild basierend auf dem markierten Bild.

In dem Film „Minority Report“ von Steven Spielberg aus dem Jahr 2002 steht der von Tom Cruise gespielte Charakter vor einem schwebenden Bildschirm und zieht, markiert und ruft Daten per Gesten ab. Was ursprünglich eine abstrakte Suche, Bewertung und Informationsorganisation war, wird in den Film zu einer direkten räumlichen Handlung: Man sieht etwas, reicht die Hand aus und die Informationen folgen.

Die Markierungen im Cowart-Canvas sind natürlich nicht so wissenschaftsfiktiv, aber die dahinterliegende Interaktionsintuition ist die gleiche.

Bisher mussten Benutzer die Bilder in ihrem Kopf in eine lange Reihe von Anweisungen umwandeln. Jetzt müssen sie nur einen Pfeil auf das Bild zeichnen und die Anforderungen daneben schreiben. Die KI sieht nicht mehr nur vage Beschreibungen wie „hier ändern“, sondern auch die Position, Richtung und den Kontext.

Schauen wir uns nun ein Beispiel für die Erstellung eines Produktbildes an.

Zunächst lässt man Cowart ein minimalistisches Bild eines To-Go-Kaffebechers aus Pappkarton auf einem Holzschreibtisch generieren. Anschließend markiert man im Hintergrundbereich „Hintergrund in einen Campingplatz ändern“ und in der Mitte des Bechers „ein Shiba-Inu-Logo hinzufügen“.

Das Endergebnis ist nicht überraschend.

Wenn Cowart die Positionsangaben bei der Bildbearbeitung durch die KI in Canvas-Markierungen umwandelt, müssen Benutzer nicht mehr ständig räumliche Beziehungen wie „oben links“, „mittig rechts“ oder „an der Hand“ erklären. Sie können einfach direkt auf dem Bild zeigen.

Die Interaktion von Cowart, die aus Canvas, Markierungen und Bildgenerierung besteht, ist nicht nur auf Codex beschränkt. Solange der Agent-Client das lokale MCP-Tool aufrufen, auf den lokalen Canvas-Server zugreifen und die Bildgenerierungsfähigkeit nutzen kann, kann diese Art der Nutzung auch auf andere Systeme übertragen werden.

Der Entwickler Chloe Tian (@tllll64) hat eine WorkBuddy-Anpassung erstellt. Interessierte können sie ausprobieren.

Github-Adresse 🔗 https://github.com/tllll64/cowart\_workbuddy

Obwohl Cowart vielversprechend ist, ist die aktuelle Benutzererfahrung noch recht grob:

Die Reaktionszeit ist langsam. Man muss von der Öffnung des Canvas bis zur Generierung und Bearbeitung warten. Die Kreditverbrauch ist hoch. Wenn man mehrere Versionen testet, steigt die Kosten deutlich. Außerdem besteht die Gefahr von Verbindungsverlust – Canvas, lokaler Server und MCP-Tool sind manchmal nicht synchronisiert. Codex kann die ausgewählten Bereiche nicht lesen oder die Ergebnisse nicht einfügen. Man muss den Canvas erneut öffnen oder die Konversation neu starten, um das Problem zu beheben.

Codex wird zum KI-„Arbeitsplatz“ für Angestellte

Die Plugins und Anwendungsfälle von Codex wurden bisher vom Markt unterschätzt. Wenn man sich die OpenAI-Website anschaut, findet man viele interessante Beispiele, die E-Mail-Verwaltung, automatische Computeroperationen, Front-End-Entwicklung, Spieleentwicklung, Native-App-Entwicklung und Wartung von Produktionssystemen abdecken.

In diesen Beispielen übernimmt Codex nicht nur die Aufgabe, ein paar Codezeilen zu schreiben. Es kann Benutzern helfen, ihren Posteingang zu verwalten, wichtige E-Mails zu finden und Antworten in der gewünschten Tonart zu entwerfen. Es kann auf einem Mac Anwendungen anklicken, eingeben und bedienen.

Es kann einem langfristigen Ziel folgen und komplexe Aufgaben kontinuierlich bearbeiten. Es kann auch Tabellendaten bereinigen, CSV-Dateien und Tabellen abfragen, GitHub-Pull-Requests überprüfen, Front-End-Schnittstellen basierend auf Screenshots generieren und sogar Präsentationen automatisch erstellen.

https://developers.openai.com/codex/use-cases

Die von OpenAI veröffentlichte Weißbuch „How OpenAI uses Codex“ zeigt, dass Codex in Teams für Sicherheit, Produktentwicklung, Front-End, API, Infrastruktur und Leistung im täglichen Betrieb eingesetzt wird. Basierend auf internen Interviews und Daten können die Hauptanwendungen in sieben Kategorien eingeteilt werden:

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein unendlicher Canvas in Codex: KI-Bildbearbeitung trifft jetzt genau dort, wo man sie hinweist

Den Chatfenster verlassen, der Canvas ist das Verheißungsland der KI

Codex wird zum KI-„Arbeitsplatz“ für Angestellte