GPT-5.3 hat Codex gestartet. OpenAI hat auf das neue Claude-Modell in nur 15 Minuten geantwortet.
Mars trifft auf die Erde, neue Modelle kämpfen um die Spitze!
Nur 15 Minuten nach der Veröffentlichung von Claude Opus 4.6 hat OpenAI sein neuestes und leistungsstärkstes Programmier-Modell vorgestellt –
GPT-5.3-Codex.
Das direkteste Gefühl ist, dass dieses neue Modell endlich etwas ästhetischen Geschmack hat.
Die Offizielle Seite hat zwei Demos gezeigt: ein Rennspiel und ein Tauchspiel. Sie haben einen ganz eigenen Stil.
Es heißt, dass GPT-5.3-Codex diese Spiele fast ohne menschliche Intervention kontinuierlich verbessert hat und dabei millionenfache Token verbraucht hat.
Bei der Webentwicklung ist nicht nur die Benutzeroberfläche schöner, sondern auch das Verständnis für die „Absicht“ stärker.
Selbst wenn die Eingabe unklar ist, kann es die Logik automatisch vervollständigen und eine funktionsfähige Website generieren.
Aus diesen Demos zu urteilen, hat es wirklich einen stärkeren Design-Sinn als zuvor.
Computer-Nutzungsfähigkeit ist ebenfalls auf dem höchsten Niveau. Jetzt kann es auch Finanzfachleuten direkt bei der Erstellung von Präsentationen helfen.
Es kann auch andere berufliche Tätigkeiten abdecken, insbesondere bei aufwändigen Aufgaben mit hohem Fachwissen, wie das Schreiben von Dokumenten und das Erstellen von Tabellen, hat es keine Probleme.
In Bezug auf die Leistung hat die Offizielle Seite die folgenden Highlights genannt:
Intelligenter: SWE-Bench Pro 57%, TerminalBench 2.0 76%, OSWorld 64%.
Mehr Kontrolle: Es unterstützt die Echtzeitsteuerung während der Aufgabe und ermöglicht es, die Richtung jederzeit anzupassen und Updates zu erhalten.
Schneller: Bei der Erledigung der gleichen Aufgabe benötigt es weniger als die Hälfte der Token von 5.2-Codex, und die Geschwindigkeit pro Token ist um über 25% erhöht.
Mehr Agent-Fähigkeit: Es kann nicht nur besser programmieren, sondern auch Computer bedienen.
Es ist intuitiver, wenn man sich diese Vergleichstabelle ansieht. In fast jeder Dimension hat es deutliche Verbesserungen gegenüber der vorherigen Generation.
Netizens sagen, dass es zu spannend ist. Gestern wurde OpenAI von Anthropic in einer Werbung attackiert, und heute hat es zurückgeschossen.
Innerhalb eines Tages wurden zwei leistungsstarke Programmier-Modelle vorgestellt.
Der Kommentar-Bereich hat sich schnell in die Anthropic-Fraktion und die OpenAI-Fraktion aufgeteilt.
Schauen wir uns nun an, wie gut OpenAI in diesem von Anthropic ausgelösten AI-Coding-Kampf abgeschnitten hat?
GPT 5.3 Codex
Natürlich interessiert man sich am meisten für die Programmierfähigkeit.
OpenAI hat angegeben, dass GPT-5.3-Codex auf SWE-Bench Pro den aktuellen Stand der Technik erreicht hat.
Dies ist ein Test, der speziell für die Softwareentwicklung in der realen Welt entwickelt wurde. Er deckt vier Programmiersprachen ab, hat eine höhere Schwierigkeit und reichhaltigere Aufgaben und ist näher an realen Produktionsszenarien.
Zugleich hat GPT-5.3-Codex auch deutliche Verbesserungen bei Terminal-Bench 2.0 gezeigt.
Das Wichtigste ist die Effizienz. Bei Erreichung dieser Ergebnisse hat GPT-5.3-Codex weniger Token als alle bisherigen Modelle verwendet.
Neben der Programmierfähigkeit liegt ein weiterer Schwerpunkt des neuen Codex auf Computer-Nutzungsfähigkeit.
OSWorld ist ein Benchmark-Test für die Computer-Nutzung von Agenten. Er verlangt, dass das Modell verschiedene Produktivitätsaufgaben in einer visuellen Desktop-Computer-Umgebung erledigt.
Die Ergebnisse zeigen, dass GPT-5.3-Codex in Bezug auf die Computer-Nutzungsfähigkeit deutlich stärker ist als die früheren GPT-Modelle.
Zusammenfassend lässt sich sagen, dass GPT-5.3-Codex keine punktuelle Verbesserung der Modellfähigkeit ist, sondern eher eine umfassende Entwicklung auf der Grundlage von Agenten. Sowohl das Codieren, die Frontend-Entwicklung als auch die Computer-Nutzung haben sich verbessert.
Was noch interessanter ist, hat GPT-5.3-Codex direkt an seinem eigenen Trainingsprozess teilgenommen.
OpenAI hat angegeben, dass dies das erste Modell ist, das an der „Selbstbeschleunigung“ teilnimmt. Das Codex-Team hat in der Entwicklungsphase die frühe Version des Modells verwendet, um den Trainingsprozess zu debuggen, die Bereitstellung zu verwalten und die Testergebnisse zu bewerten.
Die Offizielle Seite hat auch einige konkrete Beispiele gegeben.
In der Trainingsphase hat das Forschungs-Team Codex verwendet, um die Trainingsaufgaben zu überwachen und zu debuggen. Dies hat geholfen, die Verhaltensänderungen des Modells während des gesamten Trainingsprozesses zu verfolgen, die Interaktionen eingehend zu analysieren und Verbesserungsvorschläge zu machen.
In Bezug auf die Datenanalyse hat ein Data-Scientist mit GPT-5.3-Codex zusammengearbeitet, um eine neue Datenpipeline zu erstellen und die Ergebnisse in einer Weise zu visualisieren, die weit über herkömmliche Dashboard-Tools hinausgeht.
Anschließend haben die Forscher zusammen mit Codex diese Ergebnisse analysiert. Das Modell hat in weniger als drei Minuten die Schlüssel-Erkenntnisse aus Tausenden von Datenpunkten extrahiert.
Das Engineering-Team hat Codex verwendet, um das Test- und Laufzeit-Framework von GPT-5.3-Codex zu optimieren und anzupassen.
Als es anomale Randfälle gab, die die Benutzererfahrung beeinträchtigten, hat das Team mit Hilfe von Codex die Defekte in Bezug auf das Rendering des Kontexts identifiziert und den Grund für die niedrige Cache-Trefferquote aufgedeckt.
Zwei weitere Dinge
Der Höhepunkt der Konfrontation mit Anthropic war wirklich spannend, aber OpenAI hat tatsächlich noch zwei weitere bemerkenswerte Initiativen.
1. Frontier: Eine Plattform, die Unternehmen dabei hilft, „AI-Kollegen“ zu schaffen
Dies ist ein sehr wichtiges ToB-Geschäft von OpenAI mit einem klaren Ziel: Agenten sollen tatsächlich in den Unternehmensarbeitsablauf integriert werden.
Die konkreten Umsetzungsarten umfassen das Teilen von Kontext, eine praktische Einarbeitung, das Lernen durch Übung mit Rückmeldung sowie klare Berechtigungen und Grenzen.
Es ist bekannt, dass namhafte Unternehmen wie HP, Intuit, Oracle, State Farm, Thermo Fisher und Uber Frontier bereits frühzeitig übernommen haben.
2. AI4S: OpenAI und Ginkgo haben zusammen die Kosten für die Proteinsynthese mit GPT-5 um 40% gesenkt
Dies ist ein Laborunternehmen im Bereich der Synthetischen Biologie. Sie haben GPT-5 in ein autonomes Labor integriert, sodass das Modell Experimentpläne entwickeln, Experimente im großen Maßstab durchführen, aus den Ergebnissen lernen und entscheiden kann, was als nächstes versucht werden soll. So wurde ein geschlossener Kreis abgeschlossen.
2026 könnte das Jahr der beschleunigten Entwicklung von AI4S werden.
Während OpenAI sich mit Anthropic auseinandersetzt und die Netizens von einer Reihe neuer Entwicklungen überwältigt werden, gibt es auch eine andere Stimme im Kommentar-Bereich.
Bringt mir 4o zurück!!
Bis jetzt hat Altman immer noch nicht auf die komplette Einstellung von 4o reagiert.
Vielleicht ist er wirklich zu beschäftigt mit der Auseinandersetzung mit Anthropic.