StartseiteArtikel

Hummer Obenan Codex

字母AI2026-04-18 13:19
Von Code-Schreibwerkzeugen zu Assistenten, die Computer bedienen können.

Codex hat eine große Aktualisierung erfahren und ist von einem Code-Schreibwerkzeug zu einem Assistenten geworden, der den Computer bedienen kann.

Die Offizielle Seite hat einen sehr übertriebenen Satz als Werbung verwendet: “Codex für (fast) alles.”

Einfach ausgedrückt, hatte der frühere Codex als Codierungstool immer noch relativ klare Grenzen: Sie stellen eine Anforderung, und er generiert den Code.

Nach dieser Aktualisierung wurden diese Grenzen jedoch stark erweitert.

Er beginnt, Ihren Computer zu bedienen, Anwendungen zu nutzen und zwischen verschiedenen Tools hin und her zu wechseln. Er kann Aufgaben auf einige Tage verschieben und Ihnen auch basierend auf Ihren früheren Gewohnheiten Vorschläge geben, was als nächstes zu tun ist.

All diese Fähigkeiten zusammen geben Codex das Gefühl von einer Hummer (OpenClaw).

Er beginnt zu “arbeiten”.

Von Code schreiben zu “handwerklichem Arbeiten”

Der wichtigste Highlight dieser Aktualisierung ist, dass Codex jetzt direkt den Computer bedienen kann.

Laut der offiziellen Aussage kann Codex jetzt Anwendungen auf Ihrem Computer direkt nutzen, indem er “den Bildschirm sieht, die Maus klickt und die Tastatur eingibt”. Er wird mit seinem eigenen Cursor auf der Benutzeroberfläche die Operationen ausführen, anstatt API-Schnittstellen aufzurufen.

Man kann es so verstehen: In der Vergangenheit hat die KI normalerweise von API-Schnittstellen abhängig gewesen, um ihre Arbeit zu erledigen. Sobald sie auf Tools ohne Schnittstelle stieß, wie z. B. Designsoftware, lokale Anwendungen, interne Systeme usw., waren ihre Fähigkeiten eingeschränkt.

Jetzt kann er jedoch diese Einschränkungen umgehen und direkt auf der Benutzeroberfläche handeln.

Außerdem wird diese Operation Ihre aktuelle Arbeit nicht unterbrechen. Mehrere Agenten können im Hintergrund parallel laufen und zwischen verschiedenen Anwendungen wechseln, und der Benutzer kann weiterhin normal den Computer nutzen.

Diese Funktion ist derzeit auf macOS vorab verfügbar. Für andere Systeme muss man noch etwas warten.

Außerdem beginnt Codex in dieser Version direkt auf Webseiten zuzugreifen.

Die Desktopanwendung verfügt über einen integrierten Browser. Sie können auf der Seite einen bestimmten Button, einen bestimmten Bereich markieren oder sogar direkt Kommentare schreiben und die “Position” selbst zu einem Befehl machen, damit er die Benutzeroberfläche ändert, die Logik anpasst oder Probleme überprüft.

Diese Funktion ist für die Frontend-Design und die Spieleentwicklung sehr nützlich. Wenn der Code ursprünglich mit Codex generiert wurde, können Sie einfach auf der generierten Benutzeroberfläche markieren.

Die offizielle Dokumentation zeigt, dass sie planen, diese Funktion im Laufe der Zeit zu erweitern, damit Codex den Browser vollständiger kontrollieren kann und nicht mehr auf lokal laufende Webanwendungen beschränkt ist.

Außerdem wurde eine native Bildgenerierungsfunktion hinzugefügt: Codex kann jetzt gpt-image-1.5 nutzen, um Bilder zu generieren und zu iterieren, die für Produktgestaltung, Benutzeroberflächenskizzen oder Spielmaterialien verwendet werden können. Es ist keine zusätzliche API erforderlich.

Im Zusammenhang mit dem Entwicklungsablauf selbst hat diese Aktualisierung auch viele zuvor verstreute Schritte ergänzt. Beispielsweise kann er GitHub-Bewertungs-Kommentare bearbeiten, mehrere Terminal-Tabs öffnen, sich über SSH mit einer Remote-Entwicklungsumgebung verbinden und PDFs, Tabellen und Dokumente direkt in der Seitenleiste vorschauen.

Es gibt auch ein Sammelpanel, auf dem Sie sehen können, was derzeit passiert, welche Informationen verwendet werden und welche Ergebnisse erzielt werden.

Diese Fähigkeiten sind nicht vollständig neue Funktionen von Grund auf. Sie bestanden früher nur verstreut und werden jetzt in den gesamten Entwicklungsablauf von Codex integriert.

Codex hat auch die Plugin- und Tool-Integration erweitert und über 90 Plugins integriert, darunter JIRA, GitLab, Microsoft-Suite usw.

Aufgaben beginnen, zwischen verschiedenen Tools zu fließen, anstatt in einer einzelnen Anwendung zu verbleiben. Sie können ihm mit einem Satz sagen, dass er gleichzeitig in Slack, Gmail und Notion suchen soll und Ihnen dann eine Liste der zu bearbeitenden Aufgaben geben soll.

Eine weitere sehr wichtige Verbesserung ist, dass Codex jetzt Aufgaben “für später aufheben” kann.

Er kann den vorhandenen Kontext wiederverwenden und die Aufgabe zu einem späteren Zeitpunkt automatisch fortsetzen. Der gesamte Prozess kann über mehrere Tage oder sogar Wochen hinweg dauern.

Das bedeutet, dass die zuvor abgeschlossenen Sortierungen, diskutierten Probleme und die noch nicht abgeschlossenen Arbeiten nicht verloren gehen. Sie können in den nächsten Schritt übernommen werden und Teil nachfolgender Aufgaben werden.

Zugleich beginnt die Gedächtnisfähigkeit zu wirken. Codex wird Ihre Präferenzen, Änderungsgewohnheiten und die bereits sortierten Informationen aufzeichnen, damit nachfolgende Aufgaben ohne wiederholte Erläuterungen fortgesetzt werden können und sich allmählich an Ihre Arbeitsweise anpassen.

Wenn er genügend Kontext erfasst hat, kann Codex Informationen aus verschiedenen Tools extrahieren, die zu bearbeitenden Kommentare oder Aufgaben erkennen, eine priorisierte Handlungsempfehlung erstellen und Ihnen sagen, wo Sie mit einem Projekt fortfahren sollten.

Nicht nur eine Funktionsverbesserung

Viele der oben aufgeführten Funktionen mögen auf den ersten Blick nicht zusammenhängen, aber sie weisen alle auf dieselbe Veränderung hin: den Arbeitsablauf.

In der Vergangenheit war Codex in einem bestimmten Schritt enthalten, wie z. B. Code schreiben, Code ändern, Code erklären. Sie mussten zwischen verschiedenen Tools hin und her wechseln und die Aufgaben in Abschnitte aufteilen, bevor Sie sie ihm übergeben konnten.

Jetzt beginnen diese Dinge jedoch zusammenzuhängen: Er kann in Anwendungen Operationen ausführen, Informationen auf Webseiten abrufen, Befehle in der Konsole ausführen und die Ergebnisse dann in den Code einbinden. Er kann diese Schritte auch fortsetzen und dieselbe Aufgabe einige Tage später weiterverfolgen.

Man kann sagen, dass die zuvor in verschiedenen Tools und zu verschiedenen Zeiten verteilten Arbeiten jetzt zu einem kontinuierlichen Ablauf verbunden werden und in einem System zusammengefasst werden.

Die native Mac-Integration ermöglicht es Codex, Ihren Computer zu bedienen, Anwendungen in der lokalen Umgebung zu bedienen, Aufgaben zu koordinieren und Informationen zwischen verschiedenen Tools zu übertragen.

Er ersetzt nicht die ursprünglichen Anwendungen, sondern beginnt, zwischen diesen Anwendungen zu fließen und Aufgaben von einem Ort an einen anderen zu bringen.

Deshalb glauben einige, dass Codex sich zu einem “Betriebssystem” für Wissensarbeitern verwandelt.

Außerdem glauben einige, dass die Gedächtnisfähigkeit möglicherweise der Schlüssel dieser Aktualisierung ist, anstatt die Integration von mehr Anwendungen.

Weil, sobald die KI beginnt, Ihre Arbeitsweise zu verstehen und diese Informationen in nachfolgenden Aufgaben wiederzuverwenden, wird sie sich allmählich an Ihre Gewohnheiten anpassen und Ihnen immer bequemer zu nutzen sein.

Dies weist tatsächlich auf einen Trend hin: Der zukünftige Wettbewerb der KI wird möglicherweise nicht nur die Modellfähigkeit selbst betreffen, sondern auch, wer sich tiefer in Ihren Arbeitsablauf einfügen und kontinuierlich verstehen kann, wie Sie Ihre Arbeit erledigen.

“Super-App”

Wenn es um die Fähigkeit geht, sich in den Arbeitsablauf einzubinden, denken viele vielleicht an OpenClaw. Die Richtungen beider sind tatsächlich gleich, nämlich die KI dazu zu bringen, Aufgaben zu erledigen, anstatt nur Fragen zu beantworten.

Der Unterschied besteht darin, dass OpenClaw eher auf die “Tool-Aufrufe” abzielt und den Ablauf über Schnittstellen verbindet. Bei dieser Aktualisierung von Codex wird die KI in das System integriert, damit sie direkt Anwendungen bedienen kann.

Deshalb wird man sagen, dass er “mit der Hummer” versehen ist – das Einbinden dieser Logik in das System ist ja wie ein Anziehen.

Diese Ähnlichkeit mag mit der Tatsache zusammenhängen, dass Peter Steinberger (Gründer von OpenClaw) OpenAI beigetreten ist. Wahrscheinlicher ist jedoch, dass OpenAI selbst eine Ökosystemintegration vorhat und eine “Super-App” (super app) schaffen möchte, die alles bewältigen kann.

Laut offiziellen Statistiken von OpenAI hat Codex jetzt mehr als 3 Millionen Benutzer pro Woche, von denen fast die Hälfte nicht-codierende Aufgaben ausführt. Seine Anwendungsbereiche sind nicht mehr auf Code beschränkt. Diese Aktualisierung könnte der erste Schritt von OpenAI sein, um eine “Super-App” zu schaffen.

Betrachtet man den Rollout-Rhythmus, wird diese Aktualisierung auch in Phasen durchgeführt: Die Funktion der Desktop-Steuerung ist derzeit nur auf macOS verfügbar. Die Funktionen der Gedächtnis- und Kontext-Sensitivität werden zunächst an US-Benutzer freigegeben, später an Benutzer in der EU, Großbritannien, der Bildungsversion und der Unternehmensversion.

Die Fähigkeiten werden noch erweitert, aber die Richtung ist bereits klar: Codex entwickelt sich von einem Code-Schreibwerkzeug zu einem System, das Aufgaben über Anwendungen und Zeiträume hinweg kontinuierlich erledigen kann.

OpenAI ist nicht der einzige, der diesen Weg geht. Fast zur gleichen Zeit hat Perplexity AI auch eine Mac-Desktopanwendung namens “Personal Computer” veröffentlicht, die ebenfalls versucht, lokale Dateien, native Anwendungen und Browser-Operationen zu integrieren, damit die KI in einer einheitlichen Umgebung Aufgaben ausführen kann. Übrigens ist der kürzlich aktualisierte Claude Opus 4.7 jetzt das Standard-Orchestrierungsmodell von Personal Computer.

Anthropic hat bereits starke Agent-Fähigkeiten in ihren Produkten, kann Tools aufrufen und mehrstufige Aufgaben ausführen. Diese Fähigkeiten konzentrieren sich jedoch hauptsächlich auf die Entwicklungsumgebung und die Tool-Aufrufe. Es gibt noch kein einheitliches System, das direkt Desktopanwendungen bedienen kann.

Der Trend in China ist ähnlich: Fast alle großen Unternehmen planen eine ähnliche Agent-Struktur wie OpenClaw und versuchen auch, die KI direkt in der lokalen Umgebung zu betreiben und Aufgaben auszuführen.

Eigentlich ist das Ziel, dass die KI nicht mehr nur in Gesprächen bleibt, sondern in die tatsächliche Arbeitsumgebung eintreten kann.

Von Chatting über Code schreiben bis hin zum Bedienen von Anwendungen und zum Weiterführen von Arbeiten über Zeiträume hinweg: Wenn die KI beginnt zu “handeln”, ändert sich die Arbeitsweise.

Der “mit der Hummer versehene” Codex ist nur ein Schritt auf diesem Weg.

Dieser Artikel stammt aus dem WeChat-Account “Zimu AI”, Autor: Yuan Xinyue. Veröffentlicht von 36Kr mit Genehmigung.