GPT-5.5 erobert verlorenen Boden in der frühen Morgenstunde

Es kann stabile und autonome Langzeitaufgaben von fast 10 Stunden ausführen.

Zhidongxi berichtete am 24. April. In der frühen Morgenstunde heute wurde das Agenten-Programmierungsmodel von OpenAI, GPT‑5.5, offiziell veröffentlicht!

GPT‑5.5 kann die Ziele der Benutzer schneller verstehen und ist gut darin, Code zu schreiben und zu debuggen, Online-Forschung durchzuführen, Daten zu analysieren, Dokumente und Tabellenkalkulationen zu erstellen sowie zwischen mehreren Tools zu kooperieren.

▲ Offizielle Ankündigungstweet von OpenAI (Link: https://x.com/OpenAI/status/2047376561205325845)

Das OpenAI-Team bezeichnet es als "unser bisher intelligentestes und benutzerfreundlichstes Modell und einen wichtigen Schritt in Richtung einer neuen Art, Aufgaben auf dem Computer zu erledigen."

Sam Altman selbst bewertete das Modell: "Nach meiner Erfahrung 'weiß es, was zu tun ist'."

Bei der Leistung zeigt sich die Verbesserung von GPT‑5.5 besonders in Bereichen wie Agenten-Programmierung, Computergebrauch, wissensbasierten Aufgaben und frühen wissenschaftlichen Forschungen – in diesen Bereichen hängt der Fortschritt von Schlussfolgerungen über verschiedene Kontexte hinweg und kontinuierlichen autonomen Aktionen ab.

Was die Programmierfähigkeit betrifft, übertrifft GPT‑5.5 deutlich Gemini 3.1 Pro. Bei professionellen Aufgaben, Computergebrauch und Vision, Toolgebrauch sowie abstrakten Schlussfolgerungen erzielte es in den meisten Testsets bessere Ergebnisse als Claude Opus 4.7 und Gemini 3.1 Pro.

Bei der akademischen Fähigkeit und dem Toolgebrauch besteht jedoch kein deutlicher Abstand zwischen GPT‑5.5 und Claude Opus 4.7 sowie Gemini 3.1 Pro.

In Bezug auf die Geschwindigkeit behält GPT‑5.5 in der praktischen Nutzung eine ähnliche Token-Latenz wie GPT‑5.4 bei und erreicht gleichzeitig ein höheres Intelligenzniveau. Bei der Erledigung desselben Codex-Auftrags verwendet GPT‑5.5 deutlich weniger Token, ist also effizienter und leistungsfähiger.

Sobald das Modell veröffentlicht wurde, teilten viele Benutzer, die an der internen Testphase teilgenommen hatten, ihre Erfahrungen mit ihm.

Pietro Schirano, der Schöpfer des Open-Source-Projekts Claude Engineer und CEO des AI-Design-Assistenten MagicPath, berichtete, dass GPT-5.5 ihm in nur etwa 20 Minuten geholfen hat, den Codeunterschied zwischen zwei Versionen seines Projekts automatisch zu vergleichen, dann einen neuen Zweig auf der Grundlage der offiziellen Version zu erstellen und alle Änderungen aus anderen Zweigen perfekt zu integrieren.

Er hat auch mit GPT-5.5 ein spielbares 3D-Shooter-Spiel in einem Rutsch erstellt. Das Spiel hat ein flüssiges Steuergefühl, und jedes Grafikelement wurde von Grund auf mit Three.js generiert.

Darüber hinaus hat Pietro Schirano GPT-5.5 gebeten, über USB-Verbindung Anwendungen für sein Flipper Zero zu erstellen und diese erfolgreich auf das Gerät zu übertragen.

Pietro Schirano sagte: "GPT-5.5 ist das leistungsfähigste Tool, das ich je benutzt habe. Zum ersten Mal fühle ich mich nicht mehr durch die Funktionen des Modells eingeschränkt, sondern nur durch meine Vorstellungskraft. Trainingsabläufe, unmögliche Optimierungen, Hardwareexperimente über USB. Die Ära der Vibe-Hardware beginnt."

Der AI-Ingenieur Peter Gostev hat GPT-5.5 intensiv getestet und einige Beispiele seiner Arbeit mit GPT-5.5 veröffentlicht. Er berichtet, dass Benutzer GPT-5.5 Schritt-für-Schritt-Anweisungen geben können, und GPT-5.5 wird diese Schritte nacheinander ausführen. In seiner eigenen Erfahrung kann es mindestens sieben Stunden lang stabil autonom arbeiten.

Peter Gostev bat GPT-5.5, ein Londoner Eisenbahnspielzeug mit Landmarken und jahreszeitlichen Veränderungen zu erstellen, und das Modell hat die Aufgabe auf Anhieb hervorragend erledigt. Er stellte fest, dass die von GPT-5.5 generierten Werke im Vergleich zu denen von GPT-5.4 viel umfangreicher konzipiert, logischer und fehlerärmer sind.

Bartosz Naskręcki, ein Assistentprofessor der Mathematik an der Universität Adam Mickiewicz in Posen, hat mit GPT‑5.5 in Codex in nur 11 Minuten eine algebraische geometrische Anwendung erstellt, die die Schnittlinien von quadratischen Flächen visualisieren und die resultierenden Kurven in das Weierstrass-Modell umwandeln kann.

Anschließend hat er die Anwendung erweitert und eine stabilere Singularitätsvisualisierung sowie exakte Koeffizienten hinzugefügt, die in späteren Arbeiten wiederverwendet werden können.

Der bekannte AI-Test-YouTuber Matthew Berman sagte, dass er GPT-5.5 in den letzten zwei Wochen getestet hat. Er merkte, dass OpenAI die Perspektive des Modells verbessert hat, was er als Versuch ansieht, mehr Marktanteile im Bereich persönlicher Agenten (wie OpenClaw) zu erlangen. "Die Antworten sind kürzer, menschlicher und weniger formell. Es hat wirklich seine eigene Perspektive."

Preislich liegt GPT-5.5 bei 5 US-Dollar pro Million eingegebener Token und 30 US-Dollar pro Million ausgegebener Token, mit einem Kontextfenster von einer Million Token. Im Vergleich zu GPT-5.4 ist der Preis insgesamt verdoppelt.

GPT-5.5 Pro kostet 30 US-Dollar pro Million eingegebener Token und 180 US-Dollar pro Million ausgegebener Token.

Im Vergleich zum Preis des Claude-Modells von Anthropic liegt der Preis von GPT-5.5 fast auf dem gleichen Niveau wie der von Opus 4.7, wobei der Ausgabe-Preis pro Million Token um 5 US-Dollar höher ist.

Heute wird GPT‑5.5 schrittweise an die Plus-, Pro-, Business- und Enterprise-Benutzer von ChatGPT und Codex herausgegeben, während GPT‑5.5 Pro an die Pro-, Business- und Enterprise-Benutzer von ChatGPT angeboten wird.

In ChatGPT ist GPT‑5.5 Thinking für Plus-, Pro-, Business- und Enterprise-Benutzer verfügbar. Für API-Entwickler wird gpt-5.5 bald in den Responses API und Chat Completions API zur Verfügung stehen.

Zum Zeitpunkt der Veröffentlichung von GPT-5.5 gab es zahlreiche Beschwerden über die schlechtere Leistung von Claude Code. Vielleicht spürt Anthropic den Druck von GPT-5.5 und hat heute einen ausführlichen Artikel veröffentlicht, in dem es ankündigt, das Problem der Leistungseinbußen behoben zu haben und die Nutzungsbeschränkungen aller Abonnementbenutzer ab heute zurückzusetzen.

01 Spitze der Agenten-Programmierung erreicht, Kosten nur halb so hoch wie die der Konkurrenz

Das OpenAI-Team sagt, dass GPT‑5.5 das bisher leistungsfähigste Agentic Coding-Modell von OpenAI ist.

Der Artificial Analysis Intelligence Index⁠ ist ein gewichteter Durchschnitt von zehn Bewertungen, die von einer unabhängigen Organisation durchgeführt werden. Dazu gehören: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Die offizielle Ankündigung von Artificial Analysis besagt, dass GPT-5.5 (xhigh) von OpenAI in Terminal-Bench Hard, GDPval-AA und APEX-Agents-AA führend ist. Das Modell liegt nur in CritPt und AA-LCR hinter anderen OpenAI-Modellen und ist in drei anderen Bewertungen nur hinter Gemini 3.1 Pro Preview, was es insgesamt auf den ersten Platz bringt.

Nach dem Artificial Analysis Intelligence Index erzielt GPT‑5.5 die höchsten Punktzahlen und kostet nur die Hälfte der Kosten vergleichbarer Spitzen-Programmier-Modelle.

Im komplexen Ausführungstest Terminal-Bench 2.0 erzielte GPT‑5.5 82,7%. Im Test zur Lösung realer Weltprobleme SWE-Bench Pro erreichte es 58,6%, und die Anzahl der pro Durchlauf gelösten Aufgaben übertraf die früherer Modelle. Im internen Langzeitaufgabentest Expert-SWE war GPT‑5.5 ebenfalls besser als GPT‑5.4.

In allen drei Bewertungen erzielte GPT‑5.5 höhere Punktzahlen als GPT‑5.4, während es weniger Token verwendete.

Die Stärken des Modells in der Programmierung zeigen sich besonders in Codex. In Codex kann GPT‑5.5 eine Reihe von Ingenieuraufgaben von der Implementierung und Refactoring bis zum

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

In der frühen Morgenstunde eroberte GPT-5.5 wieder den verlorenen Boden, und Anthropic griff dringend ein.

01 Spitze der Agenten-Programmierung erreicht, Kosten nur halb so hoch wie die der Konkurrenz