StartseiteArtikel

7 Stunden kontinuierliche Neukonstruktion ohne Ausfall. Der unerreichte Claude hat endlich einen Gegner: Greg Brockman erklärt persönlich einen großen Durchbruch in der KI-Programmierung.

极客邦科技InfoQ2025-09-17 15:57
Am 16. September hat OpenAI offiziell ein neues Modell namens GPT-5-Codex vorgestellt. Dies ist eine feinabgestimmte Variante von GPT-5, die speziell für seine verschiedenen KI-gestützten Programmierwerkzeuge entwickelt wurde.

Am 16. September hat OpenAI offiziell ein neues Modell namens GPT - 5 - Codex vorgestellt. Dies ist eine feingestimmte Variante von GPT - 5, die speziell für seine verschiedenen AI - unterstützten Programmierwerkzeuge entwickelt wurde. Das Unternehmen erklärte, dass die "Denkzeit" des neuen Modells GPT - 5 - Codex dynamischer ist als die der vorherigen Modelle. Die Zeit, die für die Erledigung einer Codierungsaufgabe benötigt wird, variiert von einigen Sekunden bis zu sieben Stunden. Daher schneidet es in den Benchmarks für agentenbasiertes Codieren besser ab.

Die Veröffentlichung von GPT - 5 - Codex markiert das Ende einer möglicherweise heftigen Stimmungswende im Bereich der "Coding Agents" (Codierungsagenten) in letzter Zeit.

In den letzten über einem Jahr war Anthropic in der Codierungsszene fast unschlagbar. Vom Claude 3.5 Sonnet im Juni letzten Jahres über den 3.7 Sonnet und Claude Code im Februar bis hin zu Claude 4 im Mai hatte Anthropic die Dominanz fest in der Hand. In dieser Zeit stieg der Jahresumsatz des Unternehmens sprunghaft auf 5 Milliarden US - Dollar (wovon 10 % von Claude Code stammten), und der Marktwert erreichte 183 Milliarden US - Dollar, was einem Anstieg von 122 Milliarden US - Dollar entspricht.

All dies hat offensichtlich das Kampfgeist von OpenAI entfacht. Schon 2021 veröffentlichte OpenAI das ursprüngliche Codex, das GitHub Copilot, das weltweit erste AI - Programmierwerkzeug (das heute noch von 182 Entwicklern kontinuierlich verbessert wird), hervorgebracht hat. GPT - 3 inspirierte auch Debuild und war der Vorläufer aller späteren Vibe - Coding - Startup - Trends. Danach legte OpenAI auch in o1 und GPT - 4.1 die Codierungsfähigkeit wieder in den Vordergrund.

GPT - 5 - Codex erreichte auf SWE - bench einen Score von 74,5 %, was fast so hoch ist wie der Score von GPT - 5 thinking auf der 477 - Teilmenge mit 74,9 %. Was hat nun die Gesamtwahrnehmung von GPT - 5 so stark verändert?

Einer der Gründe ist: Das Codex - Team arbeitet wirklich hart.

Erstens ist es ein "universeller" Agent. Greg sagte in einem heutigen Podcast:

"Zu Jahresbeginn haben wir uns ein Unternehmensziel gesetzt: Bis Jahresende einen agentenbasierten Softwareingenieur zu entwickeln. Es war eine riesige Aufgabe für viele Leute bei OpenAI, herauszufinden, was das genau bedeutet, wie man es umsetzt und wie man alle Chancen und Rechenkapazitäten integriert."

Die erste agentenbasierte SWE - Shell hieß 10X und lief im Terminal. Heute hat OpenAI mit dem neuen Codex CLI, "ChatGPT Codex" (jetzt umbenannt in Codex Cloud), der IDE - Erweiterung (die in 2,5 Wochen über 800.000 Installationen erreichte) und dem GitHub - Code - Review - Roboter eine ganze Reihe von Benutzeroberflächen geschaffen, die alle Bedürfnisse abdecken.

Zweitens hat es bessere Nach - Trainingseigenschaften. OpenAI betont immer die enge Verbindung zwischen Forschung und Produkt. Im heutigen Podcast wurden auch einige wichtige Eigenschaften erwähnt, wobei die wichtigste Verbesserung in den "langlaufenden Agentenaufgaben" liegt.

Thibault Sottiaux sagte:

"Dieses Modell zeigt die Fähigkeit, länger an einem Problem zu arbeiten und die 'Ausdauer' für komplexe Umstrukturierungsaufgaben zu haben.

Bei einfachen Aufgaben antwortet es jedoch sehr schnell und ohne viel Überlegung. Das macht es zu einem guten Partner - man kann Fragen stellen, Code lokalisieren und Pläne entwickeln. Und sobald man es loslässt, kann es lange Zeit kontinuierlich arbeiten.

Intern haben wir gesehen, dass es 7 Stunden lang an einer komplexen Umstrukturierung arbeitete, was bisher noch kein anderes Modell konnte. Wir haben auch enorme Anstrengungen in die Codequalität gesteckt, und es wurde speziell auf die tatsächlichen Bedürfnisse der Codex - Benutzer optimiert."

Genau diese geschickt eingesetzte "Ausdauer" ist der Schlüssel dafür, dass GPT - 5 - Codex ein umfassenderes und praktischeres agentenbasiertes Programmiermodell wird. Es ist nicht nur auf die schwierigsten Probleme optimiert, so dass Benutzer bei einfacheren Aufgaben auf "dümmerere" Modelle umsteigen müssen.

Wir haben den gesamten Inhalt dieses Podcast - Interviews übersetzt, um Ihnen einen tieferen Einblick in die Arbeitsweise des OpenAI - Teams bei der Entwicklung von GPT - 5 - Codex sowie in die dahinter liegende Technologie und Geschichte zu geben.

1 Warum ist Programmieren eine besondere Ausnahme in der AGI - Forschung

Andrew Mayne: Heute wollen wir über Codex sprechen. Ich habe es tatsächlich seit der ersten Version benutzt, als ich noch hier arbeitete. Jetzt haben Sie eine neue Version, und ich habe das ganze Wochenende damit gespielt. Ich bin wirklich beeindruckt. Ich hätte nie gedacht, dass sich diese Technologie in nur wenigen Jahren so weit entwickelt hätte. Ich würde gerne die Ursprungsgeschichte erfahren: Wie kam man ursprünglich auf die Idee, Sprachmodelle zum Schreiben von Code zu verwenden?

Greg Brockman: Ich erinnere mich, dass wir in der Zeit von GPT - 3 erstmals das Phänomen beobachteten, dass das Modell bei Angabe eines Docstrings oder der Definition einer Python - Funktion den Code vervollständigen konnte. Wenn man das das erste Mal sieht, weiß man, dass das funktioniert und groß werden wird. Damals haben wir auch über einige ideale Ziele gesprochen, wie etwa die Vorstellung, dass ein Sprachmodell tausend Zeilen zusammenhängenden Codes schreiben könnte. Das war unser großer Ziel damals. Und heute ist dieses Ziel längst erreicht und übertroffen. Wir sind es inzwischen so gewöhnt, dass es uns nicht mehr auffällt. Aber bei der Entwicklung sieht man oft nur die Lücken und Mängel des Modells. Wenn man sich manchmal zurückzieht und die Gesamtentwicklung betrachtet, wird deutlich, wie weit die Technologie vorgeschritten ist.

Thibault Sottiaux: Ja, es ist unglaublich, wie schnell wir uns an diese ständigen Verbesserungen gewöhnen und wie schnell sie zu alltäglichen Werkzeugen werden. Wir nutzen sie täglich und denken dann plötzlich, dass etwas, das vor einem Monat noch undenkbar war, heute zur Routine gehört. Es ist wirklich faszinierend, wie schnell sich Menschen an neue Dinge gewöhnen können.

Greg Brockman: Wir hatten aber immer das Problem, ob wir uns in einem bestimmten Bereich spezialisieren sollten. Unsere Mission ist die Entwicklung von AGI, der allgemeinen Intelligenz. Intuitiv möchten wir alle Fähigkeiten gleichermaßen verbessern. Aber Programmieren war immer eine Ausnahme.

Wir haben für das Programmieren ein ganz anderes Forschungs - und Entwicklungskonzept. Wir konzentrieren uns auf Programmierdaten, Code - Metriken und die Leistung des Modells bei Codierungsaufgaben. Später haben wir auch in anderen Bereichen versucht, dieses Vorgehen anzuwenden. Aber im Bereich des Programmierens haben wir immer besondere Aufmerksamkeit geschenkt.

Beispielsweise haben wir bei GPT - 4 letztendlich ein allumfassendes großes Modell entwickelt, aber wir haben auch ein Codex - Modell trainiert und ein auf Python ausgerichtetes Modell erstellt. Um 2021 haben wir wirklich sehr hart daran gearbeitet, die Codierungsfähigkeiten an ihre Grenzen zu treiben. Die damalige Codex - Demonstration war vielleicht die früheste Form des heutigen Vibe - Codings.

Ich erinnere mich, dass ich bei der Erstellung der Benutzeroberfläche plötzlich feststellte, dass die Interaktion mit einem normalen Sprachmodell sehr einfach ist, nämlich die Vervollständigung eines Satzes oder die Fortsetzung eines Dialogs. Aber Code ist etwas anderes. Code muss "lebendig" sein, ausgeführt werden und mit Werkzeugen verbunden sein. Dann wird deutlich, dass die sogenannte "Interaktionshülle" (harness) genauso wichtig ist wie das intelligente Modell selbst, da sie entscheidet, ob das Modell tatsächlich eingesetzt werden kann. Ab diesem Moment haben wir das verstanden.

Dieses Jahr haben wir stärkere Modelle eingesetzt und uns nicht nur auf das Teilen von Programmierwettbewerben und die Verbesserung der ursprünglichen Fähigkeiten konzentriert, sondern uns darum bemüht, dass es wirklich praktisch nutzbar ist. Daher haben wir in das Training eine Vielzahl von Umgebungen integriert, das Modell mit realen Entwicklungsszenarien verbunden und die passende Interaktionshülle bereitgestellt. Dies ist auch der Bereich, in dem Thibault und sein Team besonders hart arbeiten.

Andrew Mayne: Können Sie das "harness" einfacher erklären?

Thibault Sottiaux: Es ist eigentlich sehr einfach. Das Modell an sich ist nur ein Eingabe - Ausgabe - System. Das "harness" integriert es in andere Infrastrukturen, damit es in der Umgebung tatsächlich wirken kann. Dies umfasst Werkzeuge und Zyklen, wie den sogenannten "Agentenzyklus" (agent loop). Einzeln betrachtet scheint es einfach, aber wenn man diese Komponenten wirklich end - to - end in das Training integriert, beobachtet man einige faszinierende Verhaltensweisen - das Modell kann für Sie handeln, schaffen und zu einem echten Partner werden. Man kann es sich so vorstellen, dass das Gehirn das Modell ist und das "harness" der Körper.

Andrew Mayne: Ja, das ist sehr interessant. Denken Sie noch an die Zeit von GPT - 3, als wir kommentierten Code schreiben mussten, etwa indem wir vor einer Python - Funktion ein # und eine Erklärung einfügten, um dem Modell zu sagen, was die Funktion tun soll. Heute können die Modelle Code ganz natürlich und intuitiv schreiben. Sie haben vorhin über den Unterschied zwischen allgemeinen Modellen und programmierungsspezifischen Modellen gesprochen - liegt das an der hohen Nachfrage der Benutzer oder an Ihrem eigenen Wunsch, es so zu gestalten?

Greg Brockman: Es ist beides. Beispielsweise haben wir 2022 in Zusammenarbeit mit GitHub Copilot vorgestellt. Damals hatten wir erstmals das Gefühl, wie es ist, wenn KI in den Programmierworkflow integriert wird: Es beschleunigt den Arbeitsablauf. Aber es gab auch viele Probleme, wie etwa die Gestaltung der Benutzeroberfläche: Sollte es wie Ghost Text automatisch vervollständigen oder eine Drop - Down - Liste mit verschiedenen Optionen bieten? Eines war jedoch klar: Die Latenz ist selbst eine Produktfunktion. Die Schwelle für die automatische Vervollständigung liegt bei 1500 Millisekunden. Übersteigt die Latenz diesen Wert, wartet niemand mehr, egal wie intelligent das Modell ist. Damals war es also die allgemeine Meinung, dass man innerhalb der Latenzgrenze das intelligenteste Modell einsetzen sollte. Aber dann kam GPT - 4, das zwar intelligenter war, aber die Latenzanforderungen nicht erfüllte. Was tun? Wir fanden heraus, dass die Lösung darin besteht, das "harness" und die Benutzeroberfläche zu ändern. Die Interaktionsweise muss sich zusammen mit der Modellfähigkeit entwickeln.

Ein schnelles und intelligentes Modell ist natürlich ideal, aber auch ein intelligenteres, aber langsameres Modell ist absolut lohnenswert, da die Vorteile der Intelligenz auf lange Sicht sicher sichtbar werden.

Andrew Mayne: Ich habe damals bei der Entwicklung von GitHub Copilot nicht wirklich verstanden, wie wichtig das "harness" und die Werkzeuge sind. Ich dachte, es reicht, wenn das Modell den Code vervollständigen kann. Jetzt habe ich aber CLI - Werkzeuge wie Codex CLI, mit denen ich im Befehlszeileninterface arbeiten kann, und VS Code - Erweiterungen, die ich sogar direkt auf einer Website nutzen kann. Ich habe damals nicht ganz verstanden, was der Wert dahinter ist. Wie nutzen Sie diese Dinge selbst und wo finden Sie sie am nützlichsten?

Thibault Sottiaux: Wenn man die Beobachtung von Anfang an betrachtet, haben viele Entwickler ChatGPT genutzt, um sehr komplexe Probleme zu debuggen. Sie haben immer mehr Kontextinformationen wie Codeausschnitte und Stack - Traces in das Modell eingegeben und um Hilfe gebeten. Mit zunehmender Komplexität der Interaktion haben wir plötzlich festgestellt, dass es besser wäre, wenn das Modell selbst den Kontext sucht, selbst schließt und debuggt, so dass die Benutzer einfach zuschauen können, wie das Modell arbeitet. Dieser Gedankenwandel hat uns dazu gebracht, das "harness" ernsthafter zu betrachten und dem Modell die Fähigkeit zur eigenständ