Während ich nur ein Bad nahm, hat Codex für mich die Rückerstattung beim Kundendienst beantragt und erhalten.
Der Online - Einkaufsversand wurde gestohlen. Ich habe den Kundendienst kontaktiert, und das Kundendienstsystem zeigt an, dass die geschätzte Wartezeit 25 Minuten beträgt.
In der Vergangenheit hieß das, dass wir entweder starr in das Chatfenster starrten oder die Webseite geöffnet hielten und andere Dinge taten, während wir alle paar Minuten zurückkehrten, um zu sehen, ob wir an der Reihe waren. Andernfalls mussten wir, wenn wir versehentlich die Seite verließen, erneut an der Warteschlange anstellen.
Jason Liu, ein neu hinzugefügter Entwicklererfahrungsexperte bei OpenAI, hat sich für eine dritte Lösung entschieden. Er hat diese Aufgabe Codex übergeben.
Der Befehl war einfach: Alle 5 Minuten das Chatfenster überprüfen; wenn der Kundendienst online ist, auf eine Minute reduzieren; so weit wie möglich die Rückerstattung bewerkstelligen.
Dann ging er duschen; als er zurückkam, hatte Codex die Rückerstattung bereits abgeschlossen.
Während des gesamten Prozesses wurde kein einziger Code geschrieben. Ein Agent hat sich, während wir keine Zeit hatten oder uns nicht darum kümmern konnten, mit einem anderen Kundendienstsystem auseinandergesetzt und einfach das Geld zurückbekommen.
Außer dass Codex für uns mit dem Kundendienst chatten kann, kann es auch direkt über die iPhone - Spiegelung unser Telefon bedienen. Entwickler können damit direkt einen Bug in einer App reproduzieren.
Jedes Morgen die Privatnachrichten und die Nachrichten durchlesen und die wichtigen Dinge in die Notizbibliothek archivieren; sogar einen Online - Musikeditor öffnen, die Harmonien und Struktur eines ganzen Liedes neu schreiben, das Tempo einstellen, speichern und dann den Song weiterlaufen lassen.
Das sind alle Fähigkeiten, auf die OpenAI bei Codex kürzlich besonderen Schwerpunkt gelegt hat: Der KI die Fähigkeit geben, wirklich einen Computer zu bedienen.
Der OpenAI - Ingenieur Jason Liu hat einen ausführlichen Artikel geschrieben, in dem er die drei "Computer - Bedienfähigkeiten" von Codex erklärt: Computer Use, Chrome - Erweiterung, In - App - Browser.
Die Namen dieser drei Fähigkeiten, die Codex den Computer bedienen lassen, klingen etwas verwirrend, und ihre Funktionen überschneiden sich möglicherweise auch ein wenig.
Viele Leute haben beim ersten Blick auf diese Fähigkeiten dieselbe Frage: Warum braucht ein Agent drei verschiedene Systeme für die Computerbedienung?
Funktionsmäßig ermöglichen sie Codex, den Computer zu übernehmen. Aber hinter Browser, Chrome und Computer Use steckt eigentlich ein System von Handlungsrechten, das OpenAI für den Agenten entworfen hat.
Verschiedene Bedienmodi eignen sich für verschiedene Szenarien. Wenn möglich, sollte man eine Erweiterung verwenden, anstatt auf die Webseite zu klicken; wenn man direkt auf die API zugreifen kann, sollte man die KI nicht die Bildschirmerkennung zur Bedienung der Benutzeroberfläche nutzen lassen.
Wenn beispielsweise WeChat dem Agenten eine Schnittstelle zur Verfügung stellt, muss die KI nur eine Funktion ausführen, um eine Nachricht zu senden.
Ohne Schnittstelle muss Codex zunächst WeChat öffnen, die Nachricht finden, den Kontakt auswählen, in das Eingabefeld klicken, den Inhalt kopieren und dann auf "Senden" drücken.
Beide Methoden erreichen dasselbe Ergebnis, aber in Bezug auf Effizienz und Zuverlässigkeit liegen sie auf völlig unterschiedlichen Ebenen. Deshalb ist Computer Use in der OpenAI - Konzeption eher eine Sicherheitslösung.
Um zu verstehen, wann man Computer Use und wann Chrome zur Computerbedienung verwenden sollte, erklären wir diese drei Autorisierungsmodi anhand von Jason Lius Beitrag, damit Sie Codex besser nutzen können, um Ihren Computer zu bedienen.
Die weiteste Tür
Zuerst die "stärkste" Fähigkeit: Computer Use.
Wir haben bereits mehrere Anleitungen zur Verwendung von Codex geteilt, von der Zielverwaltung bis zur Computerbedienung und Browserbedienung. Darin wurde gezeigt, dass man mit Computer Use direkt seine Notizen ändern kann.
Codex kann direkt unsere Notizen automatisch bearbeiten
Es kann den Bildschirm sehen, fast jede grafische Benutzeroberfläche bedienen, Tastatur, Menü und Zwischenablage nutzen und mit den Apps interagieren, denen wir die Berechtigung erteilt haben. Es kann auch Software nutzen, die keine API hat, indem es "den Bildschirm betrachtet und selbst entscheidet, wo es klicken soll".
Der Nachteil ist die Langsamkeit. Eine strukturierte Erweiterung kann direkt auf eine Schnittstelle zugreifen; Computer Use muss zunächst die Benutzeroberfläche erkennen, entscheiden, wo es klicken soll, auf die Reaktion der App warten und dann den nächsten Bildschirm betrachten. Dieser visuelle Zyklus verbraucht viel Zeit.
Was bringt also die Langsamkeit?
Es eignet sich am besten für Anwendungen, die nur eine grafische Benutzeroberfläche haben und keine Schnittstelle. Und auf einem Mac stört die Langsamkeit möglicherweise nicht, da es im Hintergrund unsere autorisierten Apps bedienen kann. Während es arbeitet, können wir unsere eigenen Dinge tun und später feststellen, dass es einen bestimmten Prozess bereits abgeschlossen hat.
Die Rückerstattung am Anfang wurde auf diese Weise bewerkstelligt. Ich habe Codex einfach die Zeit gegeben, eine Möglichkeit zu finden, mit dem Kundendienst zu chatten, während ich duschte.
Aber wenn man geht, kann man sich Sorgen machen, denn dies ist die weiteste Vertrauensgrenze unter den drei. Wir geben sozusagen unseren gesamten Desktop preis.
Codex verwendet Claude und wird gefragt, ob es besser ist als Claude Code. Codex stimmt der Antwort von Claude nicht zu.
Das OpenAI - Team warnt auch wiederholt, Codex immer nur eine eindeutige App oder einen bestimmten Prozess zuzuweisen. Unabhängige sensible Software sollte geschlossen werden. Bei Vorgängen, die mit Geld, Konten, Passwörtern, Privatsphäre oder Systemicherheit zusammenhängen, sollten wir anwesend sein.
Die beste Verwendungsmöglichkeit von Computer Use ist möglicherweise, es als Ergänzung zu nutzen. Derzeit können die meisten Agenten mit Drittanbieter - Software verbunden werden, wie z. B. Gmail, Slack usw.
Codex kann auch direkt aus Slack Feedback lesen, Code ändern und Videos neu rendern. Wenn aber das Slack - Integrationswerkzeug keine Dateien hochladen kann, kann Computer Use eingreifen und auf "Datei hinzufügen" klicken, um diesen Schritt zu erledigen.
Der OpenAI - Ingenieur gibt am Ende den Rat, Computer Use zu verwenden, wenn die Aufgabe von folgenden Situationen abhängt:
- Native Desktop - Anwendungen wie Spotify oder Finanzanwendungen
- iOS - Simulator, iPhone - Spiegelung oder andere reine GUI - Prozesse
- System - oder Anwendungs - Einstellungen
- Datenquellen ohne Erweiterung oder API
- Arbeitsabläufe, die zwischen mehreren Anwendungen wechseln
- Ein fehlender Schritt in einer ansonsten nützlichen strukturierten Integration
Die Tür mit Ihrer Identität
Die zweite Tür ist etwas enger: Die Chrome - Erweiterung. Sie übernimmt den Browser, bei dem wir bereits angemeldet sind.
Früher, wenn Agenten den Browser bedienten und ihn angewiesen wurden, etwas auf X zu suchen, kam es oft zu Fehlern wegen fehlender Authentifizierungsinformationen. Die Chrome - Erweiterung löst dieses Problem.
Cookies, Einstellungen, Anmeldestatus und geöffnete Tabs kann sie nutzen. Deshalb können Aufgaben, die auf Webseiteninformationen zugreifen müssen und eine Anmeldung erfordern, wie z. B. Gmail, LinkedIn, Salesforce oder interne Unternehmens - Backends, an die Chrome - Erweiterung übergeben werden.
Codex soll den Browser bedienen und die Informationen auf der X - Startseite zusammenfassen
Der entscheidende Unterschied liegt hier: Da die Chrome - Erweiterung unseren Identitätsstatus nutzt, werden die Klicks, Einreichungen und Nachrichten von der Website als unsere eigenen Handlungen angesehen. Die Fähigkeit ist stärker, aber das Risiko ist auch größer.
Jason Liu hat Codex eine bereits geöffnete Online - Musikkompositionsseite übergeben und ihm gesagt: "Mache die Musik interessanter."
Die Chrome - Erweiterung übergibt dann automatisch diesen Tab zusammen mit den auf der Seite zur Verfügung stehenden Tools an Codex. Codex liest das gesamte Lied, schreibt die Harmonien neu, ändert die Vier - Minuten - Form, stellt die Geschwindigkeit ein, speichert und lässt es dann weiterlaufen.
Von der Änderung der Arrangement bis zur perfekten Wiedergabe hat Codex nicht über den gesamten Bildschirm nach Buttons gesucht, weil es den Kontext des Tabs und die von der Seite angebotenen Funktionen kombinieren kann.
Jason hat auch ein weiteres Beispiel für die Verwendung der Chrome - Erweiterung erwähnt. Er nutzt sie, um einen ständig aktualisierten Twitter - Beitrag zu überwachen. Der Befehl war ungefähr: "Nutze Chrome jeden Tag, um Privatnachrichten zu lesen, relevante Nachrichten zu studieren, nach nützlichen Rückmeldungen und Erwähnungen zu suchen und alles, was sich bewährt, in die Notizbibliothek zu speichern, aber keine Beiträge oder Nachrichten veröffentlichen."
Codex kann Twitter öffnen. Interessanterweise kann diese Aufgabe tagtäglich in demselben Anmeldestatus fortgesetzt werden, die gefundenen Informationen mit unseren lokalen Dateien verbinden und am Ende ein überprüfbares Ergebnis liefern.
Wenn also alles im Browser geschieht, sollte man die Chrome - Erweiterung bevorzugen. Er hat auch erwähnt, dass die idealen Szenarien für die Verwendung der Chrome - Erweiterung sind:
- Gmail oder LinkedIn
- Salesforce oder Support - Console
- Interne Dashboards
- Autorisierte Recherchen über mehrere Websites hinweg
- Formulare, die von Ihrem Konto oder Ihren Browsererweiterungen abhängen
Die sauber isolierte Tür
Die dritte Tür ist die engste: Der In - App - Browser. Er befindet sich in der Codex - Konversation, und wir sehen dieselbe gerenderte Seite wie er.
Das Wichtigste ist die Isolation. Der In - App - Browser verwendet nicht unsere normalen Browser - Einstellungen, keine Cookies, keine Erweiterungen und keinen Anmeldestatus.
Deshalb ist der In - App - Browser für die lokale Entwicklung, das Debuggen von Web - Anwendungen, die Reproduktion von visuellen Bugs und die Prüfung von responsiven Layouts am besten geeignet. Es kann direkt den Code ändern, die Seite bedienen, das Renderergebnis anzeigen, Screenshots machen, nach der Änderung erneut ausführen, bis das erwartete Ergebnis erzielt wird.
Das Interessanteste ist die Annotation. Bei Vibe Coding oder bei der Erstellung echter Projekte können wir, wenn wir eine lokale Seite überprüfen, direkt auf ein Element klicken oder einen Bereich markieren und eine Notiz hinterlassen, z. B. "Diese Ebene ist verkehrt", "Dieses Element sollte nicht als Karte gestaltet werden", "Diese Steuerelemente müssen weiter auseinander sein".
Codex erhält die Kommentare zusammen mit Screenshots und dem Elementkontext, ändert die Datei und öffnet dieselbe Seite wieder, um Ihnen die nächste