7 Stunden lang kontinuierlich arbeiten und sich "nicht müde" fühlen. OpenAIs stärkstes Programmier-Modell GPT-5-Codex ist da.
Nachrichten von Zhidx vom 16. September. In der Nacht von heute hat OpenAI das neue Modell GPT-5-Codex veröffentlicht. Dies ist eine auf die Softwareentwicklung optimierte Modellversion auf Basis von GPT-5, die die Fähigkeit des Agentic Coding in Codex weiter verbessert.
OpenAI erwähnt in einem Blogbeitrag, dass das Training von GPT-5-Codex auf die praktische Softwareentwicklung konzentriert ist. Es kann die Denkzeit dynamisch an die Aufgabe anpassen und kann bei großen und komplexen Aufgaben mehr als 7 Stunden unabhängig arbeiten.
Zusätzlich hat GPT-5-Codex in den Benchmark-Tests im Vergleich zu GPT-5 eine Verbesserung bei der Genauigkeit in mehreren Benchmark-Tests und der Wahrscheinlichkeit für hochwertige Kommentare bei der Codeüberprüfung erzielt.
Weniger als zwei Stunden nach der Veröffentlichung von GPT-5-Codex hat Sam Altman, Mitbegründer und CEO von OpenAI, in X bekannt gegeben, dass der Datenverkehr von GPT-5-Codex bereits etwa 40 % des gesamten Codex-Datenverkehrs ausmacht und heute bereits mehr als die Hälfte des Datenverkehrs ausmachen wird.
GPT-5-Codex ist in allen Szenarien verfügbar, in denen Entwickler Codex nutzen. Es ist das Standardtool für Cloud-Aufgaben und Codeüberprüfungen. Entwickler können es auch über die Codex-Befehlszeilenschnittstelle (CLI) oder die integrierte Entwicklungsumgebung (IDE) erweitern und es für lokale Aufgaben nutzen.
OpenAI hat im April dieses Jahres erstmals die quelloffene Programmierintelligenz Codex CLI und im Mai erstmals die Webversion von Codex vorgestellt. Vor zwei Wochen hat OpenAI Codex zu einer einzigen Produkt-Erfahrung integriert, die über ein ChatGPT-Konto verbunden ist. Dadurch können Entwickler ihre Arbeit nahtlos zwischen der lokalen Umgebung und der Cloud migrieren, ohne den Kontext zu verlieren.
Codex ist in den Abonnementpaketen von ChatGPT Plus, Pro, Business, Bildungs- und Unternehmensbenutzern enthalten. Die Plus-, Bildungs- und Business-Pakete unterstützen mehrere Fokus-Coding-Kurse pro Woche, während das Pro-Paket die Nutzung für mehrere Projekte innerhalb einer Woche unterstützt. Für Entwickler, die Codex CLI über einen API-Schlüssel nutzen, plant OpenAI, bald GPT-5-Codex in der API anzubieten.
In den Kommentaren von OpenAI auf X haben Entwickler angegeben, dass diese neue Veröffentlichung von OpenAI vielversprechend für die Bearbeitung komplexer Projekte ist. Einige Entwickler äußern auch Bedenken hinsichtlich ihres Budgets für AI-Tool-Abonnements.
01 Dynamische Anpassung der Denkzeit an die Aufgabe, weniger fehlerhafte Kommentare und mehr hochwertige Kommentare
GPT-5-Codex wurde für komplexe praktische Ingenieurtasks trainiert, wie z. B. das Erstellen eines gesamten Projekts von Grund auf, das Hinzufügen von Funktionen und Tests, das Debuggen, die Durchführung von großen Umstrukturierungen und die Codeüberprüfung. Es kann die Anweisungen in AGENTS.md besser befolgen und hochwertigen Code generieren. Entwickler müssen nur ihre Anforderungen formulieren, ohne lange Beschreibungen zum Code-Stil oder zur Code-Sauberkeit hinzufügen zu müssen.
Darüber hinaus passt GPT-5-Codex die Denkzeit dynamisch an die Komplexität der Aufgabe an. Die Ausführungszeit der Aufgabe kann von wenigen Sekunden bis zu 7 Stunden variieren. Das Modell kombiniert zwei grundlegende Fähigkeiten der Programmierintelligenz: die Paarung mit Entwicklern in interaktiven Sitzungen und die kontinuierliche und unabhängige Ausführung von längeren Aufgaben. Dies bedeutet, dass Codex bei der Bearbeitung kleiner, klar definierter Anfragen oder beim Chatten mit ihm agiler wirkt und auch bei der Bearbeitung komplexer Aufgaben wie großer Umstrukturierungen länger arbeiten kann.
Historisch gesehen hat OpenAI bei der Veröffentlichung von GPT-5 nur die Testergebnisse von 477 Benchmark-Tests aus dem SWE-bench Verified-Testset veröffentlicht, das die Fähigkeit des Modells misst, reale Softwareentwicklungsprobleme zu lösen. Dies lag daran, dass einige Aufgaben damals in ihrer Infrastrukturumgebung nicht ausgeführt werden konnten. Heute hat OpenAI dieses Problem behoben und kann nun die Testergebnisse aller 500 Aufgaben veröffentlichen. Die Genauigkeit von GPT-5-Codex in diesem Benchmark-Test beträgt 74,5 %, GPT-5 liegt bei 72,8 %.
OpenAI hat die Code-Umstrukturierungsfähigkeit des neuen Modells anhand von Umstrukturierungsaufgaben aus großen, etablierten Code-Bibliotheken getestet, die Programmiersprachen wie Python, Go und OCaml betreffen. Die Genauigkeit von GPT-5-Codex in diesem Test beträgt 51,3 %, GPT-5 liegt bei 33,9 %.
Bei den Tests haben die Forscher festgestellt, dass GPT-5-Codex große und komplexe Aufgaben über 7 Stunden hinweg unabhängig bearbeiten kann, die Implementierung iterativ verbessern, Testfehler beheben und schließlich erfolgreich abliefern kann.
Auf der Grundlage der Nutzung durch OpenAI-Mitarbeiter haben die Forscher festgestellt, dass, wenn die Benutzerinteraktionsrunden nach der Anzahl der vom Modell generierten Token sortiert werden, GPT-5-Codex in den letzten 10 % der Fälle, in denen die geringste Anzahl an Token generiert wurde, um 93,7 % weniger Token verwendet als GPT-5.
In den oberen 10 % der Fälle verhält es sich genau umgekehrt. GPT-5-Codex denkt mehr und verbringt doppelt so viel Zeit mit dem Schließen von Schlussfolgerungen, der Codebearbeitung, dem Testen und der Iteration wie GPT-5.
GPT-5-Codex kann auch zur Codeüberprüfung und zum Finden von kritischen Fehlern verwendet werden. Bei der Überprüfung durchsucht es die Code-Bibliothek des Entwicklers, schließt Rückschlüsse auf Abhängigkeiten und führt den Code und die Tests aus, um die Richtigkeit zu überprüfen.
OpenAI hat die Leistung der Codeüberprüfung anhand von kürzlich eingereichten Pull-Requests in beliebten quelloffenen Repositories bewertet. Erfahrene Softwareingenieure bewerten bei jedem Pull-Request die Richtigkeit und Wichtigkeit der Überprüfungskommentare.
GPT-5 hat etwa 13,7 % fehlerhafte Kommentare, GPT-5-Codex nur 4,4 %. Bei den hochwertigen Kommentaren liegt der Anteil von GPT-5 bei 39,4 %, GPT-5-Codex bei 52,4 %. Die durchschnittliche Anzahl an Kommentaren pro Pull-Request beträgt bei GPT-5 durchschnittlich 1,32, bei GPT-5-Codex 0,9.
Sie haben festgestellt, dass die Kommentare von GPT-5-Codex weniger wahrscheinlich fehlerhaft oder unwichtig sind.
Laut TechCrunch hat Alexander Embiricos, der Produktverantwortliche für OpenAI Codex, in einer Präsentation erklärt, dass die Leistungssteigerung von GPT-5-Codex in großem Maße auf seine Fähigkeit zur dynamischen Denkzeit zurückzuführen ist. Benutzer kennen möglicherweise den Echtzeit-Router von GPT-5 in ChatGPT, der die Abfragen basierend auf der Komplexität der Aufgabe an verschiedene Modelle leitet. GPT-5-Codex funktioniert ähnlich, hat jedoch keinen integrierten Router und kann die Bearbeitungsdauer der Aufgabe in Echtzeit anpassen. Dies ist ein Vorteil gegenüber dem Router, da der Router von Anfang an entscheidet, wie viel Rechenleistung und Zeit für die Lösung eines Problems aufgewendet werden soll, während GPT-5-Codex fünf Minuten nach Beginn des Problems entscheiden kann, dass noch eine Stunde benötigt wird.
Im offiziellen Blog von OpenAI wird auch erwähnt, dass im Gegensatz zum allgemeinen Modell GPT-5 sie Entwicklern empfehlen, GPT-5-Codex nur für Agentic Coding-Aufgaben in Codex oder ähnlichen Codex-Umgebungen zu verwenden.
02 Drei Kernverbesserungen, Automatisierung des Agentic Coding-Workflows
Darüber hinaus hat OpenAI kürzlich einige Updates vorgenommen, darunter eine verbesserte Codex CLI und eine neue Codex IDE-Erweiterung.
Erstens die Codex CLI
Auf der Grundlage der Rückmeldungen aus der quelloffenen Community zu Codex CLI hat OpenAI die Codex CLI um die Agentic Coding-Workflows neu aufgebaut. Jetzt können Entwickler direkt in der CLI Bilder anhängen und teilen, einschließlich Screenshots, Wireframes und Diagrammen, um einen gemeinsamen Kontext basierend auf Designentscheidungen zu erstellen und genau das zu erhalten, was sie benötigen.
Bei der Bearbeitung komplexerer Aufgaben kann Codex jetzt die Fortschritte mithilfe einer To-Do-Liste verfolgen und Tools wie Web-Suche und MCP nutzen, um externe Systeme anzuschließen, was insgesamt die Genauigkeit der Tool-Nutzung verbessert.
Die Aktualisierung der Benutzeroberfläche des Terminals umfasst eine bessere Formatierung der Tool-Aufrufe und der Anzeige von Unterschieden, die leichter verständlich ist.
Das Genehmigungsmodell wurde auf drei Ebenen vereinfacht: Nur-Lesen (erfordert explizite Genehmigung), Automatisch (erfordert vollständigen Zugriff auf die Arbeitsumgebung, aber Genehmigung außerhalb der Arbeitsumgebung) und Vollzugriff (kann Dateien an beliebigen Orten lesen und Befehle über das Netzwerk ausführen). Es unterstützt auch die Komprimierung des Dialogzustands, um Entwicklern die Verwaltung längerer Gespräche zu erleichtern.
Zweitens die Codex IDE-Erweiterung
Diese IDE-Erweiterung ermöglicht es, die Codex-Intelligenz in VS Code, Cursor und andere auf VS Code basierende Editoren einzubinden, um lokale Codeänderungen gemeinsam mit Codex zu previewen und den Code zusammen zu bearbeiten.
Wenn Entwickler Codex in der IDE nutzen, können sie mit kürzeren Anweisungen das gewünschte Ergebnis erhalten, da Codex Kontextinformationen nutzen kann, wie z. B. die von Entwicklern geöffneten Dateien oder ausgewählten Code-Schnipsel.
Die Codex IDE-Erweiterung ermöglicht es Entwicklern, den Workflow zwischen der Cloud-Umgebung und der lokalen Umgebung zu wechseln. Entwickler können neue Cloud-Aufgaben erstellen, laufende Arbeiten verfolgen und abgeschlossene Aufgaben einsehen, ohne den Editor zu verlassen.
Wenn eine abschließende Anpassung des Codes erforderlich ist, kann die Cloud-Aufgabe direkt in der IDE geöffnet werden, und Codex behält den gesamten Kontext bei.
Darüber hinaus hat OpenAI die Leistung der Cloud-Infrastruktur verbessert und durch die Zwischenspeicherung von Containern die durchschnittliche Abschlusszeit für neue und nachfolgende Aufgaben um 90 % verkürzt. Codex kann nun die Umgebung automatisch einrichten, indem es gängige Installationsskripte scannt und ausführt. Mit der konfigurierbaren Internet-Zugriffsberechtigung kann es bei Bedarf Befehle wie "pip install" ausführen, um Abhängigkeiten zu erhalten.
Genau wie in der CLI und der IDE-Erweiterung können Entwickler nun Frontend-Design-Spezifikationen wie Schnittstellen-Prototypen, visuelle Entwürfe oder Screenshots von fehlerhaften Schnittstellen oder Stilen hochladen, um UI-Fehler zu melden.
Beim Erstellen von Frontend-Inhalten kann Codex einen Browser starten, um das erstellte Ergebnis zu überprüfen und es iterativ zu optimieren. Am Ende wird das Ergebnis als Screenshot an die entsprechende Aufgabe und den GitHub-Pull-Request angehängt.
Bei der Codeüberprüfung kann Codex zur Entdeckung kritischer Fehler eingesetzt werden.
Im Gegensatz zu statischen Analysetools kann es die von Entwicklern in Pull-Requests festgelegten Entwicklungsziele mit den tatsächlichen Unterschieden abgleichen, auf der Grundlage der gesamten Code-Bibliothek und der Abhängigkeiten Schlussfolgerungen ziehen und die tatsächliche Laufzeitverhalten durch die Ausführung des Codes und der Testfälle überprüfen.
Sobald ein Entwickler Codex in einem GitHub-Repository aktiviert hat, überprüft Codex automatisch Pull-Requests, wenn sie von der Entwurfs- in die Fertigstellungsphase übergehen, und veröffentlicht die Analyseergebnisse im Pull-Request.