StartseiteArtikel

OpenAI hat ein neues Modell veröffentlicht und geht Anthropic frontal entgegen. Ist Claude Code, das gerade in Mode ist, schon von GPT-5-Codex in den Schatten gestellt?

AI前线2025-09-16 18:06
Von "Assistenz" zu "Ersatz": GPT-5-Codex arbeitet 7 Stunden unabhängig. Ist Claude Code vollständig zum Reserveoption geworden?

Am 15. September hat OpenAI offiziell ein neues Modell namens GPT-5-Codex vorgestellt. Dies ist eine feingestimmte Variante von GPT-5, die speziell für seine verschiedenen AI-gestützten Programmierwerkzeuge entwickelt wurde. Das Unternehmen hat erklärt, dass die „Denkzeit“ des neuen Modells GPT-5-Codex dynamischer ist als die der vorherigen Modelle. Die Zeit, die für die Erledigung einer Codierungsaufgabe benötigt wird, variiert von wenigen Sekunden bis zu sieben Stunden. Daher performt es besser in Benchmarks für Agenten-Codierung.

OpenAI stellt den „konkurrenzkräftigsten“ Codierungs-Agenten GPT-5-Codex vor

Eines der Highlights von GPT-5-Codex ist seine verbesserte Code-Review-Funktion, die es ermöglicht, potenzielle kritische Fehler vor der Produktveröffentlichung zu entdecken und Entwicklern zu helfen, Risiken im Voraus zu vermeiden.

Wie wird das genau erreicht?

Im Gegensatz zu statischen Analysetools passt Codex die erklärte Absicht eines Pull Requests (PR) mit den tatsächlichen Unterschieden ab, führt eine Analyse des gesamten Code-Repositories und seiner Abhängigkeiten durch und führt Code und Tests aus, um das Verhalten zu überprüfen. Nur die gründlichsten menschlichen Reviewer können so viel Zeit und Mühe in die Prüfung jedes PR investieren. Daher füllt Codex diese Lücke – es hilft Teams, Probleme früher zu entdecken, die Belastung der Reviewer zu reduzieren und Produkte mit mehr Selbstvertrauen auszuliefern.

Sobald Codex in einem GitHub-Code-Repository aktiviert ist, überprüft es automatisch PRs, bis diese aus dem Entwurfsstatus in den Status „fertig“ wechseln, und veröffentlicht seine Analyse im PR. Wenn es Änderungen vorschlägt, können Benutzer im selben Thread bleiben und Codex bitten, diese Änderungen umzusetzen. Natürlich können Benutzer auch durch die Erwähnung von „@codex review“ im PR eine Überprüfung explizit anfordern und zusätzliche Anweisungen geben, wie z. B. „@codex review security vulnerabilities“ oder „@codex review outdated dependencies“.

Derzeit ist GPT-5-Codex die Standardauswahl für Codex-Cloud-Aufgaben und Code-Reviews. Entwickler können es auch über die Codex CLI und IDE-Erweiterungen in ihrer lokalen Entwicklungsumgebung nutzen.

Bei OpenAI ist Codex jetzt für die Überprüfung der meisten internen PRs des Unternehmens verantwortlich und entdeckt täglich Hunderte von Problemen – oft noch bevor die menschliche Überprüfung beginnt. Dies ist für das Codex-Team von entscheidender Bedeutung, um Projekte schnell und mit Selbstvertrauen voranzubringen.

Darüber hinaus liegt ein weiterer technischer Durchbruch von GPT-5-Codex darin, dass es die Denkzeit dynamisch an die Komplexität der Aufgabe anpassen kann. Das Modell kombiniert zwei Kernkompetenzen: Einerseits kann es in interaktiven Sitzungen agil mit Entwicklern zusammenarbeiten; andererseits kann es auch an großen Aufgaben unabhängig arbeiten, bis ein fertiges Ergebnis vorliegt.

In internen Tests hat GPT-5-Codex seine starke Fähigkeit zur Bearbeitung komplexer Ingenieurtasks gezeigt: Es kann über 7 Stunden lang unabhängig arbeiten, um große Refaktorisierungen durchzuführen, Testsfehler zu beheben und schließlich ein erfolgreiches Ergebnis zu liefern. Dies bedeutet, dass GPT-5-Codex sowohl kleine, klar definierte Anforderungen als auch umfangreiche Projekte, die eine langfristige Iteration erfordern, bewältigen kann.

Seit der Einführung der Codex CLI im April und der Web-Version von Codex im Mai dieses Jahres hat sich Codex zu einem effizienteren kollaborativen Codierungstool entwickelt. Vor zwei Wochen hat OpenAI Codex in ein einheitliches Produkt-Erlebnis basierend auf ChatGPT-Konten integriert, sodass Entwickler Aufgaben nahtlos zwischen der lokalen Umgebung und der Cloud verschieben können und den vollständigen Kontext beibehalten können.

Heute kann Codex auf verschiedenen Plattformen laufen, darunter Terminal, IDE, Web, GitHub und die ChatGPT iOS-App. Es ist auch in die Pakete ChatGPT Plus, Pro, Business, Edu und Enterprise integriert, um für Benutzer auf verschiedenen Ebenen ein einheitliches Erlebnis zu bieten.

OpenAI hat angekündigt, dass es vorhat, das Modell in Zukunft auch API-Kunden anzubieten.

Schlägt GPT-5 in mehreren Benchmarks

Wie performt dieses Modell in verschiedenen Benchmarks?

OpenAI hat erklärt, dass GPT-5-Codex auf SWE-bench Verified besser abschneidet als GPT-5. SWE-bench Verified ist ein Benchmark zur Messung der Agenten-Codierungsfähigkeit und auch zur Bewertung der Leistung bei Code-Refaktorisierungsaufgaben aus großen, etablierten Repositories.

Es ist erwähnenswert, dass OpenAI bei der Einführung von GPT-5 nur die Ergebnisse von 477 SWE-bench Verified-Aufgaben berichtete. Nachdem Anthropic auf dieses Problem hingewiesen hatte, hat OpenAI schnell reagiert und die Anzahl der Aufgaben auf 500 erhöht. Die detaillierten Ergebnisse sind wie folgt:

Nach den Nutzungsdaten von OpenAI gilt in den Benutzer-Sitzungen, die nach der Anzahl der generierten Token (einschließlich versteckter Inferenz und endgültiger Ausgabe) sortiert sind:

Bei den unteren 10 % der Aufgaben mit geringer Belastung reduziert GPT-5-Codex die Anzahl der verwendeten Token um 93,7 % im Vergleich zu GPT-5, was eine deutliche Effizienzsteigerung bedeutet.

Bei den oberen 10 % der Aufgaben mit hoher Komplexität dauert die Inferenz, Bearbeitung, Testung und Iteration von GPT-5-Codex doppelt so lange wie bei GPT-5, was seine intensive Einbindung in komplexe Ingenieurtasks zeigt.

Diese Flexibilität ermöglicht es dem Modell, eine optimale Ressourcennutzung in verschiedenen Task-Szenarien zu erreichen.

Laut OpenAI ist GPT‑5-Codex ein zuverlässiger Partner für Frontend-Aufgaben. Neben der Erstellung ansprechender Desktop-Anwendungen zeigt GPT‑5-Codex bei der Erstellung von mobilen Websites auch signifikante Fortschritte in der menschlichen Präferenzbewertung. Bei der Arbeit in der Cloud kann es Bilder oder Screenshots, die der Benutzer eingibt, anzeigen, seinen Fortschritt visuell überprüfen und dem Benutzer Screenshots seiner Arbeit zeigen.

Alexander Embiricos, der Produktverantwortliche für OpenAI Codex, hat in einer Sitzung erklärt, dass die Leistungssteigerung in hohem Maße auf die dynamische „Denkfähigkeit“ von GPT-5-Codex zurückzuführen ist. Benutzer kennen möglicherweise den Router von GPT-5 in ChatGPT, der Anfragen je nach Komplexität der Aufgabe an verschiedene Modelle leitet. Embiricos hat erklärt, dass GPT-5-Codex ähnlich funktioniert, jedoch keinen eingebauten Router hat und die Bearbeitungszeit für Aufgaben in Echtzeit anpassen kann.

Embiricos hat erklärt, dass dies im Vergleich zu einem Router ein Vorteil ist, da ein Router bereits am Anfang entscheidet, wie viel Rechenleistung und Zeit für die Lösung eines Problems aufgewendet werden soll. GPT-5-Codex kann dagegen fünf Minuten nach Beginn der Bearbeitung einer Aufgabe entscheiden, dass noch eine Stunde benötigt wird. Embiricos hat gesagt, dass er gesehen hat, dass das Modell in einigen Fällen bis zu sieben Stunden benötigt.

Was sagen die Netizens?

Die Veröffentlichung von GPT‑5-Codex hat auf der Weböffentlichkeit für Aufregung gesorgt.

Der bekannte Blogger Dan Shipper hat angegeben, dass er GPT-5-Codex bereits getestet hat und von den Ergebnissen beeindruckt ist.

„Es wählt die „Denkzeit“ dynamisch in Abhängigkeit von der Aufgabe aus – es kann lange an schwierigen Aufgaben arbeiten und bei einfachen Fragen sofort eine Antwort geben.

In unseren Tests in der Produktions-Codebasis konnte es bis zu 35 Minuten lang autonom laufen – im Vergleich dazu war GPT-5 oft zu vorsichtig. Dies ist eine deutliche Verbesserung.

Es unterstützt die nahtlose Übergabe zwischen lokaler und Web-Entwicklungsumgebung. Sie können eine Aufgabe in VS Code starten und sie dann an Codex Web übergeben, während Sie einkaufen gehen.

Es ist mit einem Code-Review-Agenten ausgestattet, der Ihren Code tatsächlich ausführt und daher mehr Bugs entdecken kann.

Nach unseren umfangreichen internen Tests ist dies unser Gesamteindruck:

Dies ist eine sehr gute Verbesserung, die Codex CLI zu einer starken Alternative zu Claude Code macht.

Allerdings muss es mit angemessenen Anweisungen bedient werden, um das beste Ergebnis zu erzielen. Beispielsweise konnte @kieranklaassen es nur maximal fünf Minuten laufen lassen, während @DannyAziz97 den Trick gefunden hat.

Manchmal „faulzt“ es – es mag bei einigen Aufgaben nicht genug nachdenken oder aufgaben ablehnen, wenn es diese als zu umfangreich erachtet.

Ich habe das ganze Wochenende lang die Codex CLI genutzt, um einen neuen PR für @CoraComputer einzureichen, und ich muss sagen, es ist ein großartiges Modell – sehr gut zu bedienen und einfach zu steuern.“

Einige Benutzer auf Reddit, die GPT-5-Codex getestet haben, sind der Meinung, dass es die Regeln des Spiels neu definiert.

„Heute hatte ich einige einfache Bugs bei der Electron-Rendering und JSON-Generierung. Drei Wochen zuvor war Codex nicht in der Lage, diese Probleme zu lösen (ich hatte es bereits zehnmal einzeln gefragt). Heute habe ich die neue Version getestet, und es hat diese Probleme auf Anhieb gelöst und tatsächlich gemäß meinen Anweisungen gehandelt.

Ich habe einen Beitrag gelesen, in dem der CEO von Anthropic sagte, dass 90 % des Codes in Zukunft von KI generiert werden würden. Ich denke, er hat recht – aber Anthropic hat dies noch nicht erreicht. Aus meinen zweistündigen Erfahrungen denke ich, dass Codex letztendlich fast 75 % meines Codes schreiben wird, 15 % werde ich selbst schreiben und 10 % wird Claude schreiben, zumindest solange der Kontext kontrollierbar ist.“

Einige Menschen haben sogar eine Bedrohung ihrer Arbeitsstelle aufgrund der Tatsache empfunden, dass GPT-5-Codex bis zu sieben Stunden lang effizient arbeiten kann:

„Wenn diese Art von Dienstleistung stabil auch nachts und an Wochenenden funktioniert, wird sich das Spiel grundlegend ändern. Junior-Entwickler können nicht mit dieser Leistung mithalten. Nachdem der Preis für diesen Dienstleistung zwischen 20 und 200 US-Dollar liegt, während die Anstellung eines Junior-Entwicklers ein Unternehmen monatlich zwischen 5.000 und 10.000 US-Dollar kostet. Wenn man die Kosten für Krankheitstage, Feiertage, Wochenend-Zuschläge, Versicherungen usw. berücksichtigt, kann diese Dienstleistung einem Unternehmen bis zu 500 bis 1.000 Mal mehr Kosten sparen als die Anstellung eines Junior-Entwicklers.

Es ist vorhersehbar, dass sich diese Branche bald grundlegend verändern wird. Wenn ich nochmal in die Universität gehen würde, würde ich wahrscheinlich nicht mehr für Informatik als Hauptfach wählen.“

Einige Netizens haben festgestellt, dass sich in der heutigen Zeit, in der es immer mehr AI-Codierungstools gibt, die Art der Programmierarbeit verändert hat. Stattdessen wird es mehr auf die Architektur-Entwurf konzentriert. Ein Netizen hat gesagt:

„Der Schwerpunkt der Programmierung wird mehr auf die Architektur-Entwurf verlagert, anstatt einfach nur Roh-Code zu schreiben. Das traditionelle Modell, in dem Junior-Entwickler nur dafür eingestellt werden, um Funktionen umzusetzen, die von Architekten oder Senior-Entwicklern geplant wurden, wird allmählich an Bedeutung verlieren.

Für mich bleibt die Programmierung auch dann spannend, wenn in Zukunft KI die Softwareentwicklung übernimmt. Denn ich finde, das eigentliche Vergnügen liegt darin, dass meine Ideen irgendwie „lebendig“ werden, wenn sie umgesetzt werden. Und das Zusammenspiel aller Codes und die Lösung von Problemen, die damit verbunden sind, bleiben immer eine Herausforderung, die KIs ohne allgemeine Intelligenz schwer bewältigen können.

Deshalb denke ich, dass der Beruf der Programmierer vor der Entwicklung einer echten allgemeinen KI (AGI) nicht ganz verschwinden wird.“

Große Summen fließen in AI-Codierungstools

Diese Aktualisierung ist Teil der Bemühungen von OpenAI, um die Wettbewerbsfähigkeit von Codex gegenüber anderen AI-Codierungsprodukten wie Claude Code, Cursor von Anysphere oder GitHub Copilot von Microsoft zu verbessern.

Aufgrund der hohen Nachfrage seitens der Benutzer hat sich der Markt für AI-Codierungstools im vergangenen Jahr noch stärker verdichtet.

Anysphere, der Hersteller von Cursor, hat im Juni eine Finanzierung von 900 Millionen US-Dollar abgeschlossen und hat nun einen Marktwert von 9,9 Milliarden US-Dollar. Diese Runde wurde von Thrive Capital, einem wiederkehrenden Investor, geleitet, und an der Finanzierung haben auch Andreessen Horowitz,