StartseiteArtikel

Hör auf, GPT-5-Codex! Draußen sind überall KI-Programmierintelligenzen.

新智元2025-09-16 10:45
Hör auf, GPT-5-Codex!

OpenAI hat das sensationelle GPT-5-Codex vorgestellt, das speziell für die Programmierung von Agenten entwickelt wurde und die Leistung bei der Code-Refactoring, -Prüfung und -Fehlererkennung erheblich verbessert. Sein dynamisches Ressourcenzuweisungsmechanismus macht das Modell effizienter bei Anfragen mit geringer Last und tiefer gehend bei komplexen Aufgaben. Wird das Jahr 2025 zum Höhepunkt des Wettbewerbs um Programmieragenten? Kann das GPT-5-Codex sich durchsetzen?

Ein Bild, das alle großen globalen Modelle auf einen Blick zeigt! Ein Juwel zur zehnten Gründungstag von New Intelligence Yuan. Der 37-seitige Vorausschaubericht über die Trends der künstlichen Superintelligenz (ASI) von 2025 wird erstmals veröffentlicht.

Gerade eben ist die „brandneue“ Version von GPT-5 online gegangen!

Diesmal verwendet OpenAI direkt den Markennamen Codex als Suffix für das neue Modell: GPT-5-Codex!

Das neue Modell wird noch besser in der intelligenten Programmierung sein!

Selbst wenn nur noch ein Drittel des Jahres 2025 übrig ist, ist der Wettlauf um die „Programmieragenten“ bei den großen Konzernen immer noch weißer heiße!

Das offizielle OpenAI-Blog hat sogar die Definition von „Autovervollständigung“ neu definiert und es zu „agent-complete“ aufgewertet.

In der sechsten Folge des OpenAI-Podcasts sprachen der Präsident Greg und der Codex-Verantwortliche Thibault Sottiaux viel über das GPT-5-Codex und darüber, wie die Softwareentwicklung bis 2030 „aussehen könnte“.

Lasst uns zunächst einen schnellen Überblick über diese wichtige Aktualisierung erhalten.

Das neu veröffentlichte GPT-5-Codex ist eine spezielle Version von GPT-5, die speziell für die Programmierung von Agenten (agentic coding) neu entworfen wurde.

Das GPT-5-Codex wird über umfassende „Zweimoduls“-Stärken verfügen:

Sofortige Zusammenarbeit: Es arbeitet in Echtzeit mit Entwicklern zusammen, beantwortet schnell Fragen und behebt kleine Fehler.

Unabhängige Ausführung: Es kann komplexe Aufgaben über einen langen Zeitraum autonom vorantreiben (z. B. umfangreiche Refactoring, Debugging über mehrere Dateien hinweg).

Einfach ausgedrückt ist das GPT-5-Codex nicht nur schnell, sondern auch zuverlässiger.

Die Interaktionsantwort des GPT-5-Codex ist empfindlicher. Kleine Aufgaben werden fast sofort bearbeitet, während große Aufgaben über mehrere Stunden hinweg fortgesetzt werden können.

Interne Tests bei OpenAI haben gezeigt, dass es über sieben Stunden lang umfangreiche Refactoring durchführen kann.

Drei wesentliche Verbesserungen der Leistung von GPT-5-Codex

Zunächst hat das GPT-5-Codex sowohl bei der Validierung im SWE-Bench als auch bei Code-Refactoring-Aufgaben das derzeit fortschrittlichste GPT-5-high übertroffen.

Insbesondere bei Code-Refactoring-Aufgaben, die für reale Aufgabenwelt sehr gut geeignet sind, erreichte das GPT-5-Codex eine Genauigkeit von 51,3 %, weit höher als die 33,9 % des GPT-5-high.

Zweitens ist das Schlüsselmerkmal dieser Aktualisierung des GPT-5-Codex die „dynamische Anpassung“ von Ressourcen!

Nach den Nutzungsdaten von internen OpenAI-Mitarbeitern verbraucht das GPT‑5-Codex in den letzten 10 % der Benutzeranfragen, sortiert nach der Anzahl der vom Modell generierten Token (einschließlich versteckter Inferenz und endgültiger Ausgabe), 93,7 % weniger Token als das GPT‑5, wie am roten Pfeil zu sehen ist.

Im Gegensatz dazu investiert das GPT‑5-Codex bei den ersten 10 % der Anfragen mit hoher Komplexität mehr Zeit in die Überlegung. Die Zeit, die es für die Code-Inferenz, -Bearbeitung, -Tests und -Iteration benötigt, verdoppelt sich, wie am gelben Pfeil zu sehen ist.

Schließlich wurde das GPT‑5-Codex speziell trainiert und ist sehr gut darin, Code-Prüfungen durchzuführen und kritische Fehler zu entdecken.

Laut OpenAI haben sie festgestellt, dass die Kommentare, die das GPT‑5-Codex generiert, seltener fehlerhaft oder unwichtig sind, sodass die Benutzer sich mehr auf die wichtigen Probleme konzentrieren können, wie z. B.:

„Falsche Kommentare“ sinken erheblich: von 13,7 % auf 4,4 %.

„Kommentare mit hohem Einfluss“ steigen erheblich: von 39,4 % auf 52,4 %.

„Fokussierung auf die wichtigsten Punkte“: Die durchschnittliche Anzahl der pro Pull Request (PR) abgegebenen Kommentare sinkt von 1,32 auf 0,93.

Dieser Trend bringt das Vibe Coding näher an die ernsthafte, ingenieurtechnische Programmierung heran!

Warum wurde der Name Codex gewählt?

Bei der „Produktvorstellung“ des GPT-5-Codex sprach Greg über die Entstehung von Codex.

Schon in der Zeit von GPT-3 stellten sie fest, dass das Modell Funktionscode automatisch anhand von Dokumentationsstrings (Docstrings) vervollständigen konnte. Sie glaubten damals, dass die „Schreibung von Code durch Sprachmodelle“ machbar sei.

Im Jahr 2021 brachte OpenAI erstmals das Codex auf den Markt und arbeitete mit GitHub zusammen, um das Copilot zu entwickeln und die Möglichkeit zu erkunden, wie KI direkt in den Entwicklungsprozess integriert werden kann.

Die aktuelle Web-Oberfläche von Codex

Greg sagte, dass die Programmierung seit jeher ein Bereich von besonderem Interesse für OpenAI sei. Sie verwenden speziell Code-Daten und -Metriken, um die Leistung des Modells zu optimieren, anders als in anderen Bereichen.

Der Harness-Begriff, der vor Vibe Coding entstand

Bei dieser Diskussion verwendete Greg auch ein neues Wort, „Harness“, um zu erklären, dass OpenAI die Magie der „Programmierung mit Sprachmodellen“ schon viel früher entdeckt hat als die populäre Vibe Coding-Methode.

Das Wort „Harness“ bedeutet ursprünglich Reitzeug, Geschirr und wird verwendet, um ein Pferd mit einem Wagen oder einem Reiter zu verbinden, sodass die Kraft kontrolliert und genutzt werden kann.

Greg von OpenAI hat dieses Wort bei der Erklärung von Codex übernommen und es in ähnlicher Weise verwendet:

Das Modell selbst ist wie ein „Pferd“ oder ein „Gehirn“ und kann Kraft (Intelligenz, Eingabe und Ausgabe) erzeugen.

Das Harness ist wie ein „Geschirr/Integrationsrahmen“, das das Modell mit der externen Umgebung (Tools, IDEs, Terminals, Cloud usw.) verbindet, sodass es tatsächlich Aufgaben ausführen und seine Leistung entfalten kann.

Bei der Anwendung von gewöhnlichen Sprachmodellen ist die Schnittstelle (Interface) oder das „Geschirr“ (Harness) eigentlich sehr einfach — das Modell vervollständigt einfach einen Text und beendet die Interaktion nach ein oder zwei Dialogschritten.

Aber im Programmierungsszenario wird der Text „lebendig“, denn der Code muss tatsächlich ausgeführt werden und mit Tools verbunden werden, um seine Wirkung entfalten zu können.

Daher hat man erkannt, dass die Wichtigkeit des Harness fast so entscheidend ist wie die Intelligenz des Modells selbst, denn es bestimmt, ob das Modell tatsächlich einsetzbar ist.

Das sogenannte Harness von OpenAI integriert das Modell in die restliche Infrastruktur, sodass das Modell tatsächlich auf die Umgebung einwirken kann.

Leistung und Benutzererfahrung

Die geringe Latenzzeit des GPT-5-Codex ist ein großer Vorteil. Die Code-Vervollständigung muss in weniger als 1,5 Sekunden erfolgen, sonst ist die Benutzererfahrung schlecht.

Das GPT-5-Codex kann lange Zeiträume lang kontinuierlich Aufgaben ausführen und ist besonders gut für umfangreiche Refactoring- und Migrationsaufgaben geeignet.

Nach dieser Aktualisierung wird auch die multimodale Interaktion unterstützt: Terminal-Vibe-Coding, IDE-Bearbeitung, GitHub-Integration, Cursor-Integration usw., alles ist vorhanden und erfüllt die verschiedenen Entwicklungsgewohnheiten.

Interne Praktiken bei OpenAI

Außer dem GPT-5-Codex enthüllte Greg noch weitere Geheimnisse.

OpenAI hat in seinen internen Praktiken mehrere Schlüsselwerkzeuge entwickelt, um das Team bei der Erforschung des Potenzials von KI-Programmieragenten zu unterstützen.

Zunächst gibt es 10x, ein internes Prototyp, das ursprünglich im Terminal lief und die Entwicklungseffizienz erheblich verbessern konnte.

Es unterstützt die asynchrone Ausführung über einen langen Zeitraum. Ingenieure können sogar ihren Laptop schließen, während die Aufgabe weiterhin läuft. Daher wird es als Werkzeug mit „zehnfacher Produktivität“ angesehen, wurde aber noch nicht veröffentlicht, da es noch nicht ausgereift ist.

Zweitens gibt es Agents.md, eine Anleitungsdatei im Code-Repository, ähnlich einer README-Datei speziell für Codex.

Es kann den Kontext komprimieren, die Last des Modells bei der Erkundung des Codes verringern und gleichzeitig die Entwicklungspräferenzen des Teams (z. B. Testpositionen, Stilvereinbarungen) speichern. So kann Codex die Projektumgebung schneller verstehen und Aufgaben effizienter ausführen.

Schließlich gibt es den Code Review Agent, das am beeindruckendsten wirkende Werkzeug nach einem internen Pilotprojekt.

Es kann verstehen, ob die Absicht und die Umsetzung eines Pull Requests übereinstimmen, die Abhängigkeiten überprüfen und Fehler entdecken, die von menschlichen Prüfern möglicherweise übersehen werden.

Das interne Team hat sogar am Abend vor der Veröffentlichung darauf vertraut, um mehrere Dutzend Pull Requests zu prüfen und hat fast fehlerfrei veröffentlicht.

Bei der Diskussion wurde auch erwähnt, dass die Softwareentwicklung bis 2030 nicht mehr „Menschen schreiben