Epische Evolution: OpenAI bringt Mac-Version von "Super Lobster" heraus: Codex entwickelt sich zum Cyber-Kollegen
Es ist wieder ein Tag, an dem ich Mac-Benutzern envious bin.
Heute Nacht hat OpenAI offiziell die neue Version von Codex für macOS veröffentlicht und dazu geschrieben:
Codex für (fast) alles.
Es kann jetzt Apps auf Ihrem Mac nutzen, sich mit mehr Ihrer Tools verbinden, Bilder erstellen, aus früheren Aktionen lernen, sich daran erinnern, wie Sie gerne arbeiten, und anhaltende und wiederholbare Aufgaben übernehmen.
Codex kann (fast) alles.
Es kann jetzt Anwendungen auf dem Mac steuern, sich mit mehr Produktivitätstools verbinden und Bilder generieren. Darüber hinaus kann Codex aus vergangenen Handlungen lernen, Ihre Arbeitsvorlieben merken und anhaltende und wiederholbare Aufgaben selbständig übernehmen.
Kurz gesagt: Die Mac-Version des "nativen Lobsters" ist online.
Nachdem OpenAI Mitte Februar den Gründer von OpenClaw (Lobster) in das Unternehmen aufgenommen hatte, hat es in den folgenden zwei Monaten daran gearbeitet, die Fähigkeiten von OpenClaw in Codex zu integrieren. Jetzt ist es endlich gelungen, und es ist ein "Bombe" auf den Markt gekommen.
Bildquelle: X
Lassen Sie uns nun von Lei Technology (ID: leitech) zeigen, was die neueste Mac-Version von Codex alles kann.
Von Entwickler zu Wartungstechniker: Codex hat die volle Automatisierung erreicht
Das von OpenAI veröffentlichte Demo-Video von Codex zeigt zunächst die Fähigkeit von Codex zur eigenständigen Entwicklung und eigenständigen Fehlersuche in einer Mac-Umgebung.
Der Benutzer gibt Codex den Befehl: Testen Sie eine "Tic-Tac-Toe"-App und beheben Sie alle Fehler. Nachdem Codex den Befehl erhalten hat, öffnet es automatisch das lokale Xcode-Projekt auf dem Mac und klickt nacheinander auf das Raster des Tic-Tac-Toe-Projekts. Schließlich findet es die Position des Programmcode und führt den Startbefehl aus.
Bildquelle: Lei Technology
Hieraus wird ersichtlich, dass Codex nicht direkt über die API im Hintergrund den Testcode aufruft. Sondern es "benutzt" die App tatsächlich über die grafische Benutzeroberfläche (GUI) wie ein normaler Benutzer. Der Unterschied zwischen den beiden besteht darin: Letzteres bedeutet nur, dass es das Problem des Befehlsverständnisses und der Codeausführung gelöst hat und im Wesentlichen auf die offene API der App angewiesen ist; Ersteres erfordert keine API der App und kann Aufgaben über die Bilderkennung erledigen.
Dies bedeutet, dass Codex eine echte "allgemeine Ausführungskapazität" hat, da viele Drittanbieter-Apps überhaupt keine offene API anbieten. Für frühere KIs waren diese Apps ein "Black Box". Sie wussten von ihrer Existenz, konnten sie aber nicht bedienen oder auslesen.
Darüber hinaus zeigt dies auch die starke multimodale visuellen Erkennungs- und Koordinatenabbildungsfähigkeit von OpenAI. Codex kann die UI-Elemente auf dem Simulator "verstehen" und entscheiden, auf welchen Pixelkoordinaten des Bildschirms die Maus klicken soll, um den Spielzug auszuführen.
Anschließend startet Codex automatisch den Test und erkennt direkt den Fehler: "Der menschliche Spieler macht einen Zug, der Computergegner macht zwei Züge." Dies ist der aufregendste Teil der gesamten Demo, da Codex keine Fehlerdokumente herangezogen hat, sondern vollständig durch visuelle Beobachtung und logische Schlussfolgerungen der Spielregeln den Fehler in der Verhaltensweise der App erkannt hat.
Bildquelle: Lei Technology
In gewissem Sinne bedeutet dies, dass Codex bereits eine gewisse Fähigkeit zur eigenständigen Entscheidungsfindung und "menschenähnlichen" Schlussfolgerungen hat. Nachdem es das Problem festgestellt hat, beginnt es mit der Reparatur des Tic-Tac-Toe-Programms, kompiliert und führt das Programm erneut aus und bestätigt, dass der Fehler behoben ist. In einem anderen Video nutzt Codex auch ein Code-Hilfsprogramm, um ohne explizite Dateipfadanzeige eigenständig ein lokales Frontend-Projekt zu erkunden und ein Codeänderungsschema mit minimalem Änderungsumfang vorzuschlagen.
Man kann sagen, dass OpenAI durch zwei einfache Beispiele die vollständige Arbeitsablaufkapazität von Codex von der Frontend- bis zur Backend-Seite intuitiv gezeigt hat. Und alles dies wird durch die visuelle Erkennung der grafischen Benutzeroberfläche erreicht, was bedeutet, dass es bereits eine vollständige Prozessschleifen-Entwicklungskapazität für fast alle Entwicklungsumgebungen hat.
Ehrlich gesagt, ist das schon ein bisschen beängstigend. Wenn Sie früher mit Codex Apps entwickelten, mussten Sie noch etwas Programmierkenntnisse haben, um Probleme wie die API-Anbindung zu lösen. Jetzt können Sie diese Prozesse direkt überspringen und Codex wie einen "echten Menschen" den Computer bedienen und das Programm generieren lassen, das Sie möchten.
Nicht nur "Produzent", sondern auch "Kollaborator"
Ein anderes Video zeigt die Ausführungskapazität von Codex auf multimodaler Ebene. In diesem Video bittet der Benutzer Codex, ein Bild für die Hauptvisuelle Zone einer Website zu generieren. In dieser Anforderung fehlt sogar ein Hinweis auf den spezifischen Bildstil.
Was macht Codex dann? Es generiert nicht einfach ein unzusammenhängendes Bild. Sondern es liest zuerst die lokalen Projektdateien und bestimmt dann in Kombination mit den Informationen aus der grafischen Benutzeroberfläche, dass die thematische Grundnote der Website "Spätnacht-Snacks in Philadelphia" ist. Basierend auf diesem Grundsatz generiert es ein Bild mit "Hamburger + Pommes + Nachtbeleuchtung".
Bildquelle: Lei Technology
Darüber hinaus analysiert Codex auch die Layoutanforderungen der "Hauptvisuelle Zone". Um die Texte auf der linken Seite nicht zu verdecken, muss das generierte Bild auf der linken Seite genügend Leerraum lassen und der visuelle Schwerpunkt sollte nach rechts verschoben sein. Dies war für frühere KIs schwer zu erreichen, da die meisten Hilfswerkzeuge für die Entwicklung noch in der Phase der "reinen Texterzeugung" sind. Sie können nicht einmal die "visuellen Elemente" auf einer Website verstehen, und sogar die Bildgenerierung und der Pfadeinbezug müssen vom Benutzer manuell festgelegt werden.
Bildquelle: OpenAI
Nachdem Codex festgestellt hat, dass das Bild den Anforderungen entspricht, führt es automatisch den Befehl aus, um das generierte Bild in den lokalen Projektordner zu verschieben und beginnt mit der Änderung der HTML-Datei. Es ersetzt das ursprüngliche Platzhalter mit dem echten Bildtag und dem lokalen Pfad. Gleichzeitig passt es die CSS-Stile leicht an, um sicherzustellen, dass das Bild perfekt auf die Größe der Website passt. Schließlich aktualisiert es auch die Website im integrierten Browser, um das endgültige Website-Ergebnis anzuzeigen.
OpenAI zeigt auch, wie Codex eine Website vollständig eigenständig aufbaut. Nach der Erhalt der Anforderung des Benutzers zur Entwicklung einer "Lego-Verfolgungs-Webanwendung" ruft Codex die Entwicklungssoftware auf, um den Code zu schreiben und startet automatisch den lokalen Entwicklungsserver. Die Seite wird im Browserpanel von Codex geladen.
Anschließend kann der Benutzer seine beliebigen Anforderungen direkt an Codex weitergeben. Codex wird die entsprechenden Elemente der Website basierend auf den Daten aus der Bilderkennung anpassen. Beispielsweise in dem Video gibt der Benutzer nur die Anforderung "Schriftgröße verkleinern" in das entsprechende Eingabefeld ein. Codex führt automatisch eine Reihe von Schritten wie die Schriftgrößenverkleinerung und die Neuanordnung aus und erreicht wirklich "Was Sie sehen ist was Sie bekommen".
Bildquelle: Lei Technology
Für Webentwickler hat sich die Rolle von Codex tatsächlich verändert. Früher wurde es eher als "Code-Produzent" für die Fehlersuche und den Aufbau von Web-Frameworks angesehen. Die endgültige Integration musste noch von Menschen vorgenommen werden.
Jetzt ist es zu Ihrem "Kollaborator" geworden. Sie können ihm mehr Arbeit übergeben. Selbst wenn es um die Änderung von spezifischen visuellen Elementen und die Feinabstimmung der UI geht - früher hätte es für die KI möglicherweise schwierig sein können, Ihre Absicht genau zu verstehen. Jetzt ist es anders, denn es kann auch die Website "sehen".
Der persönliche Assistent ist online
In den letzten beiden Demo-Videos will OpenAI Codex zu Ihrem "persönlichen Assistenten" machen. Im Video lässt der Benutzer Codex mit nur einem Satz gleichzeitig in vier völlig verschiedenen SaaS-Plattformen wie Slack, Gmail, Google Calendar und Notion suchen.
Anschließend analysiert Codex auf der Grundlage seiner Semantikverständnisfähigkeit selbständig die Benachrichtigungen und Informationen auf den verschiedenen Plattformen und sortiert sie nach Priorität. Es klassifiziert die Informationen in "dringend zu bearbeiten" und "verzögerbar". Gleichzeitig warnt es den Benutzer basierend auf dem konkreten Inhalt der Informationen, dass einige Informationen zwar wie tägliche Berichte aussehen, aber Angelegenheiten enthalten, die genehmigt werden müssen und daher besondere Aufmerksamkeit erfordern.
Bildquelle: Lei Technology
Nachdem die Informationen zusammengefasst und klassifiziert wurden, gibt der Benutzer einen neuen Befehl "Beobachten Sie kontinuierlich und benachrichtigen Sie mich". Codex erstellt direkt eine Hintergrundaufgabe namens "Teammate - Hourly" und legt automatisch die konkreten Ausführungsregeln für diese Hintergrundaufgabe fest: Alle Stunde wird jede SaaS-Plattform überprüft, und der Benutzer wird nur benachrichtigt, wenn es eine wesentliche Zunahme der Informationen gibt (oder wenn die neuesten Informationen nicht abgerufen werden können).
Diese Funktion war auch der Grund für den Ruhm von OpenClaw - ein vollautomatischer "Mitarbeiter" im Hintergrund. Mit nur einem Befehl überwacht und führt Codex kontinuierlich die relevanten Aufgaben im Hintergrund aus, ohne dass der Benutzer aktiv eingreifen muss. Dadurch wird die KI von "passiver Reaktion" zu "aktiver Unterstützung".
Darüber hinaus können die automatisierten Vorgänge von Codex jetzt in demselben Thread ausgeführt werden. Sie müssen nur das entsprechende Chatfenster öffnen, um die KI die vorherigen Aufgaben wiederholen oder fortsetzen zu lassen. Sie müssen nicht erneut die Arbeit zuweisen. Deshalb sollten Sie nicht unterschätzen, wenn das Video einfach aussieht. Tatsächlich kann Codex, wenn der Befehl detailliert genug ist, auch komplexe automatisierte Arbeitsabläufe wie OpenClaw ausführen.
Im Video wird auch gezeigt, dass Codex nach der Erkennung einer neuen E-Mail direkt eine Zusammenfassung des E-Mail-Inhalts gibt und den Benutzer fragt, ob er bei der Entwurfsantwort helfen soll. Dies wird auch von Codex selbstständig basierend auf den verschiedenen Aufgabenanforderungen des Benutzers abgeleitet und festgelegt.
Bildquelle: Lei Technology
In dem letzten Video ruft Codex auf Anfrage des Benutzers über ein Plugin das interne Wissensverzeichnis des Unternehmens auf, findet den entsprechenden Produktbericht und erstellt eine Zusammenfassung für die Unternehmensleitung. Während des gesamten Prozesses hat der Benutzer nur den Namen des Produkts und die Aufgabe angegeben, die Codex erledigen soll. Es wurde nicht erwähnt, wo der Produktbericht gespeichert ist oder wie er gefunden werden kann.
Vollautomatische Adresssuche, schnelles Suchen in einer großen Anzahl unterschiedlicher Dokumente und Bildern, Extrahieren von Schlüsselinformationen und Erstellen von Dokumenten. Mit nur einem Satz teilt der Benutzer Codex die Aufgabe mit, und Codex teilt die Aufgabe selbstständig in