StartseiteArtikel

Das stärkste Programmier-Modell von OpenAI ist aufgetaucht. Es kann 24 Stunden lang kontinuierlich arbeiten und Millionen von Tokens auf einmal verarbeiten.

智东西2025-11-20 16:23
Die Verbesserung der Token-Effizienz verspricht eine Verringerung der Nutzungskosten.

Nach Berichten von Zhidongxi vom 20. November hat OpenAI heute sein neuestes Agenten-Programmier-Modell GPT‑5.1‑Codex‑Max veröffentlicht. Dieses Modell basiert auf OpenAIs neuestem Inferenzmodell und wurde speziell für komplexe Aufgaben in der Softwareentwicklung, Forschung, Mathematik usw. trainiert.

Zur gleichen Zeit hat OpenAI GPT-5 Pro auf GPT-5.1 Pro aktualisiert. Es wird gesagt, dass dieses Modell in Bereichen wie Schreiben und Datenanalyse stärker als seine Vorgängerversion ist. OpenAI hat jedoch keine weiteren Details zu GPT-5.1 Pro preisgegeben.

GPT‑5.1‑Codex‑Max kann in einer einzigen Aufgabe kohärent Millionen von Tokens verarbeiten und über mehrere Kontextfenster hinweg laufen. Dies ist dank einer Technologie namens Komprimierung (compaction) möglich: Wenn das Modell der Grenze des Kontextfensters nahe kommt, komprimiert es automatisch den Kontext, behält wichtige Informationen und erhält ein neues Kontextfenster für die Konversation, bis die Aufgabe abgeschlossen ist.

Dieses Modell wurde von OpenAI-Forschungswissenschaftler Noam Brown geleitet. Er beschäftigt sich bei OpenAI speziell mit der Berechnung während des Tests, also der Inferenz.

OpenAI ist der Ansicht, dass die Fähigkeit, kontinuierlich kohärent zu arbeiten, die grundlegende Fähigkeit für ein allgemeineres und zuverlässigeres KI-System ist. GPT-5.1-Codex-Max kann mehrere Stunden lang unabhängig arbeiten. In internen Bewertungen von OpenAI kann GPT-5.1-Codex-Max sogar 24 Stunden lang an der gleichen Aufgabe arbeiten, kontinuierlich iterieren, Testfehler beheben und schließlich ein erfolgreiches Ergebnis liefern.

In Bezug auf die Leistung schneidet GPT‑5.1‑Codex‑Max in mehreren Programmier-Benchmark-Tests besser ab als sein Vorgänger GPT‑5.1‑Codex. Es ist auch das erste von OpenAI trainierte Modell, das für Programmieroperationen in einer Windows-Umgebung geeignet ist.

In Bezug auf die Inferenz-Effizienz verwendet GPT‑5.1‑Codex‑Max bei der Bearbeitung von Aufgaben bei mittlerer Inferenzintensität etwa 30 % weniger Denk-Tokens als GPT‑5.1‑Codex, erzielt aber dennoch eine höhere Genauigkeit.

Für Aufgaben, bei denen die Latenz nicht so wichtig ist, aber die Qualität im Vordergrund steht, kann auch eine ultrahohe Inferenzintensität aktiviert werden, damit das Modell mehr Zeit zum Nachdenken hat und eine bessere Lösung ausgibt.

OpenAI geht davon aus, dass diese Verbesserung der Token-Effizienz für Entwickler tatsächliche Kosteneinsparungen bringen kann.

▲ GPT‑5.1‑Codex‑Max erreicht eine höhere Genauigkeit mit weniger Tokens

Zurzeit ist GPT-5.1-Codex-Max in Codex verfügbar und kann für CLI, IDE-Erweiterungen, Cloud und Code-Review verwendet werden. Der API-Zugang wird bald ebenfalls angeboten.

OpenAI hat mehrere Websites geteilt, die mit GPT-5.1-Codex-Max erstellt wurden. Basierend auf den Eingabewörtern hat GPT-5.1-Codex-Max direkt einen CartPole (Aufrechterhaltungs-Schaukel)-Reinforcement-Learning-Sandkasten erstellt, der vollständig im Browser läuft.

Benutzer können nicht nur die Dynamik der Aufrechterhaltungs-Schaukel beobachten, sondern auch über den integrierten Strategiegradienten-Regler direkt das Modell trainieren, damit die KI die Strategie in Experimenten kontinuierlich optimiert.

Es bietet eine Visualisierungsfunktion für neuronale Netzwerke. Während des Trainings oder der Inferenz können Benutzer in Echtzeit die Gewichte und Aktivierungsstatus des Modells beobachten und so den Entscheidungsmechanismus intuitiv verstehen.

Darüber hinaus zeigt die Anwendungs-Oberfläche deutlich die Anzahl der Schritte und die Belohnungen in jeder Runde und protokolliert die letzte Überlebenszeit sowie die bisher beste Überlebenszeit, sodass der Trainingsverlauf und die Ergebnisse auf einen Blick ersichtlich sind.

Unter der Voraussetzung, dass ähnliche Funktionen erfolgreich implementiert wurden, verwendet GPT-5.1-Codex-Max 27.000 Tokens, während GPT-5.1-Codex 37.000 Tokens benötigt.

GPT-5.1-Codex-Max hat auch einen Simulator für die Gravitation im Sonnensystem entwickelt. Das Ziel dieser Anwendung ist es, dass Benutzer direkt die Bewegungsbahnen von Himmelskörpern beobachten können und über Ziehen, Klicken und Manipulation von Oberflächenelementen die Beziehung zwischen Bahn, Geschwindigkeit und Gravitation intuitiv verstehen können.

Die Funktionen dieser Website laufen reibungslos, und alle in den Eingabewörtern geforderten Funktionen wurden gut umgesetzt. Benutzer können auf der Leinwand klicken, um Himmelskörper mit Masse zu platzieren und erneut klicken, um die Anfangsgeschwindigkeitsvektoren für Tests festzulegen, um so ein beliebiges einfaches Planetensystem zu erstellen.

Die Oberfläche bietet Schieberegler zur Einstellung der Masse des Zentralhimmelskörpers und des gesamten Zeit-Skalierungsfaktors, sodass Benutzer die Entwicklung einer gleichen Bahnstruktur unter verschiedenen physikalischen Bedingungen beobachten können.

Das nächste Beispiel, das von GPT-5.1-Codex-Max erstellt wurde, hilft Benutzern, die Brechungsgesetze von Licht an der Grenzfläche zwischen zwei Medien – das Snellius'sche Gesetz (Snell’s Law) – auf eine intuitive und dynamische Weise zu verstehen.

Benutzer können über linke und rechte Schieberegler den Brechungsindex von Medium 1 und Medium 2 einstellen. Wenn sich der Brechungsindex ändert, aktualisiert die Oberfläche in Echtzeit den Brechungswinkel und zeigt die Lichtablenkung in verschiedenen optischen Umgebungen.

Viele Internetnutzer haben auch ihre Erfahrungen geteilt. Dieser Nutzer hat versucht, das gestern veröffentlichte Gemini 3 Pro und GPT-5.1-Codex-Max gegeneinander antreten zu lassen. Die Eingabewörter waren die Erstellung eines SVG-Bildes eines Pelikans, der Fahrrad fährt.

Man kann sehen, dass die von GPT-5.1-Codex-Max erstellten Elemente wie Pelikan und Fahrrad deutlich mehr Details enthalten und realistischer sind.

Peter Gostev, Leiter der KI-Abteilung der britischen Personalisiert-Kartenfirma Moonpig, hat geteilt, dass er versucht hat, GPT-5.1-Codex-Max einen Golden Gate Bridge-Simulator erstellen zu lassen. Er sagte, dass dies definitiv das beste Ergebnis war, das er bisher aus ähnlichen Eingabewörtern erhalten hat.

Im Vergleich zu GPT-5.1-Pro hält Gostev GPT-5.1-Codex-Max für deutlich fleißiger und schneller. Um ähnliche Ergebnisse mit GPT-5.1-Pro zu erzielen, muss man ständig Probleme aufzeigen und klare Anforderungen stellen. GPT-5.1-Codex-Max ist dagegen aktiver.

Der KI-Ingenieur Peter Dedene hat bei seiner Nutzung festgestellt, dass GPT-5.1-Codex-Max 5 Minuten lang auf ein Problem geschaut hat und beschlossen hat, es später zu bearbeiten. Er hat noch nie gesehen, dass Codex so etwas macht. In seiner Meinung scheint das Modell bereits bewusst zu sein.

Es ist jedoch zu beachten, dass mit der kontinuierlichen Verbesserung der Modellfähigkeiten die Sicherheit auch zu einer großen Herausforderung wird. OpenAI hat angegeben, dass GPT-5.1-Codex-Max in seinem internen Preparedness-Framework noch nicht die "hohe Stufe der Netzwerksicherheit" erreicht hat, aber seine Sicherheitsfähigkeiten sind bisher die stärksten in der Branche.

Zurzeit laufen die Codex-Serie von Modellen standardmäßig in einem stark isolierten sicheren Sandkasten. Das Schreiben von Dateien ist auf ihren eigenen Arbeitsbereich beschränkt, und der Netzwerkzugang ist deaktiviert, es sei denn, die Entwickler aktivieren ihn selbst. Diese Maßnahmen können das Risiko von Prompt-Injection (Eingabewort-Einschleusung) verringern.

OpenAI hofft, durch die schrittweise Implementierung Feedback aus der realen Welt zu sammeln und die Sicherheitsmaßnahmen des Modells zeitnah zu aktualisieren.

Fazit: Programmier-Modelle gehen in die "Agenten-Ära"

Aus GPT-5.1-Codex-Max kann man sehen, dass die neuen Generationen von Programmier-Modellen nicht mehr einfache Code-Generatoren sind, sondern Programmier-Agenten, die kontinuierlich arbeiten, automatisch debuggen und aktiv planen können. Ihre Fähigkeiten wie Langzeit-Inferenz, Kontext-Komprimierung und Selbstreparatur ermöglichen es dem Modell, projektbezogene Aufgaben unabhängig zu erledigen.

Mit sinkenden Betriebskosten, stärkeren Sicherheits-Sandkästen und verbesserten Fähigkeiten könnte sich auch die zukünftige Softwareentwicklung ändern, von "Code schreiben" hin zu "Anforderungen beschreiben + Ergebnisse prüfen". Agenten könnten in Zukunft mehr Umsetzungs- und Iterationsarbeiten übernehmen.

Dieser Artikel stammt aus dem WeChat-Account „Zhidongxi“ (ID: zhidxcom). Autor: Chen Junda. Veröffentlicht von 36Kr mit Genehmigung.