Gerade wurde GPT-5.5 veröffentlicht. Es ist stärker, schneller und teurer. Ein NVIDIA-Ingenieur in der Closed-Beta sagte: "Ohne es fühle ich mich wie ein amputierter Mensch."
GPT-5.5 ist gerade erschienen.
Die offizielle Positionierung lautet: "Eine neue Art von Künstlicher Intelligenz für praktische Arbeit und Agenten."
Diesmal hat Altman nicht selbst gesagt: "Die erste Erfahrung hat mich so geschockt, dass ich ohnmächtig hingefallen bin. In diesem Moment war es, als würde ich die Atombombeexplosion erleben." Stattdessen hat er eine Gruppe von "Mundstücken" (frühe Testnutzer) beauftragt.
Einer von ihnen ist ein NVIDIA-Ingenieur. Nach dem frühen Testverlauf verlor er kurzzeitig den Zugang zu GPT-5.5 und sagte dann folgendes:
Ohne GPT-5.5 zu sein, ist wie eine Amputation.
Man kann sich streiten und plaudern.
Die Zusammenarbeit zwischen OpenAI und NVIDIA ist diesmal beispiellos.
Erstens wurden GPT-5.5 und das NVIDIA GB200, GB300 NVL72-System gemeinsam entwickelt. Vom Training bis zur Bereitstellung gibt es eine gegenseitige Anpassung zwischen Modell und Hardware von Anfang an.
Zweitens wird Codex in der gesamten NVIDIA-Firma verbreitet. Altman hat auch die E-Mails mit Huang Xianxun gezeigt.
Schauen wir uns zunächst die Daten der Zusammenarbeit an.
Im Vergleich zur vorherigen Version GPT5.4 hat das neue Modell in den drei Bereichen Code, Wissensarbeit und wissenschaftliche Forschung deutliche Fortschritte gemacht.
Das Ergebnis des synthetischen Tests Artificial Analysis Intelligence Index lässt sich auf zwei Arten interpretieren:
GPT-5.5 erreicht die gleichen Punktzahlen mit weniger Token als Claude Opus 4.7 und andere Modelle.
Oder bei gleicher Tokenanzahl erledigt GPT-5.5 mehr Aufgaben.
Das Überraschendste ist jedoch nicht die Punktzahl.
In der Vergangenheit waren "stärker" und "langsamer" fast immer miteinander verbunden, wenn ein Modell aktualisiert wurde.
Dies ist die Folge des Skalierungsgesetzes: Je größer das Modell, desto mehr Parameter und desto länger die Denkzeit. Die Nutzer zahlen nicht nur für die Intelligenz, sondern auch für die Verzögerung.
GPT-5.5 bricht diese unumstößliche Regel.
In einer realen Produktionsumgebung ist die Token-Verzögerung ähnlich wie bei GPT-5.4, und es werden sogar weniger Token benötigt, um die gleichen Aufgaben zu erledigen.
Es ist effizienter und leistungsfähiger.
(Aber der Preis verdoppelt sich.)
Zum Zeitpunkt der Veröffentlichung kann die neueste Version von Codex bereits GPT-5.5 nutzen.
Das Kontextfenster wurde auch auf 400K aktualisiert.
Programmieren aufs Neue
Programmieren ist der Bereich, in dem GPT-5.5 am stärksten verbessert wurde.
Bei der vorherigen Modellversion musste man die Aufgaben vorsichtig aufteilen, schrittweise überwachen und jederzeit bereit sein, Fehler zu korrigieren.
Mit GPT-5.5 ist es anders. Sie geben einfach Ihre Anforderungen an, und es teilt die Aufgabe selbst auf, führt sie aus und überprüft sie. Sie müssen nur das Ergebnis betrachten.
OpenAI hat ein 3D-Actionspiel gezeigt, das von GPT-5.5 unter Codex generiert wurde und direkt im Webbrowser läuft.
Dies umfasst die Implementierung eines Kampfsystems, der Gegencounter, die HUD-Feedback und die von GPT generierten Umgebungs-Texturen mit TypeScript/Three.js.
Terminal-Bench 2.0, ein harter Test zur Messung komplexer Befehlszeilen-Workflows, hat GPT-5.5 mit 82,7 % bestanden.
Die vorherige Version GPT-5.4 erreichte 75,1 %, und der derzeit stärkste Konkurrent, Claude Opus 4.7, erreichte 69,4 %.
Man kann sich das so vorstellen: Bei Problemen dieser Schwierigkeitsskala blieb die vorherige Modellversion in fast einem Drittel der Fälle stecken, während dieser Anteil jetzt auf weniger als ein Viertel gesunken ist.
Jetzt hören wir von den "Mundstücken":
Der frühe Testnutzer Dan Shipper hat ein Experiment durchgeführt. Er ist CEO eines Start-ups und auch ein aktiver Entwickler von KI-Produkten.
Nach der Veröffentlichung seiner App trat ein Fehler auf. Er hat einen Spitzeningenieur beauftragt, den Code neu zu schreiben. Der Ingenieur hat viel Zeit und Mühe investiert und schließlich eine Lösung gefunden.
Dann hat Shipper die Zeit zurückgestellt: Er hat den fehlerhaften Code an das Modell gesendet, um zu sehen, ob es die gleiche Entscheidung wie der Ingenieur treffen kann.
GPT-5.4 konnte es nicht. GPT-5.5 konnte es.
Shipper sagt, dass dies das erste Mal ist, dass er bei einem Programmier-Modell eine echte "Konzeptklarheit" spürt.
Es versteht das Problem und weiß, wie es es lösen kann, anstatt einfach auf die Frage zu antworten.
Immer mehr erfahrene Ingenieure melden dasselbe: GPT-5.5 ist in Bezug auf Inferenz und Autonomie deutlich stärker als GPT-5.4 und Claude Opus 4.7.
Es kann Probleme im Voraus erkennen und Test- und Überprüfungsanforderungen vorhersagen, ohne dass es explizit darauf hingewiesen werden muss.
Das Programmieren ist nur der Anfang. Die gleiche Leistungssteigerung breitet sich jetzt auch auf die Bereiche Wissensarbeit und wissenschaftliche Forschung aus.
Ausßerhalb des Programmierens
GPT-5.5 kann in Codex viel mehr als nur Programme schreiben. Es kann Dokumente generieren, Tabellen organisieren und Präsentationen erstellen.
OpenAI betont wiederholt, dass es besser versteht, was Sie möchten als die vorherige Version.
Das Wichtigste ist, dass es selbst Tools nutzt und überprüft, ob die Ausgabe korrekt ist. Wenn Sie ihm eine vage Idee geben, kann es den Rest ergänzen.
Hier ist eine interessante Statistik: Über 85 % der Mitarbeiter von OpenAI nutzen Codex regelmäßig in ihrer Arbeit. (Was ist mit den anderen 15 %?)
Schauen wir uns zunächst die Testergebnisse an.
Im Wissensarbeitstest GDPval hat GPT-5.5 84,9 % erreicht, was 4,6 Prozentpunkte mehr als Claude Opus 4.7 ist.
FrontierMath Tier 4, einer der schwierigsten mathematischen Tests, mit Aufgaben aus unveröffentlichten Arbeiten und offenen Fragen von Spitzenforschern.
GPT-5.5 Pro hat in diesem Test 39,6 % erreicht. Claude Opus 4.7 hat 22,9 % erreicht, was fast die Hälfte ist.
Interessant ist, wie die Wissenschaftler es nutzen.
Bartosz Naskręcki ist mathematischer Assistentprofessor an der Universität Adam Mickiewicz in Polen. Er hat Codex eine Zeile geschrieben, und 11 Minuten später lief eine App zur Visualisierung von algebraischer Geometrie.
Diese App kann die Schnittkurve zweier quadratischer Flächen zeichnen, rot markieren und die Schnittkurve mit dem Riemann-Roch-Theorem in die Standardform einer Weierstrass-Kurve umwandeln. Später hat er auch die Funktion zur Visualisierung von Singularitäten erweitert.
Eine Zeile, 11 Minuten. Früher hätte es halben Tag dauert, nur das Projektgerüst aufzubauen.
Derya Unutmaz ist Immunologieprofessor am Jackson Laboratory for Genomic Medicine. Er hat mit GPT-5.5 Pro einen Datensatz zur Genexpression analysiert: 62 Proben und fast 28.000 Gene. Am Ende wurde ein vollständiger Forschungsbericht erstellt.
Er sagt, dass dies normalerweise das Team mehrere Monate dauern würde.
OpenAI hat die Rolle von GPT-5.5 in der Forschung treffend beschrieben: Es ist nicht mehr wie eine Einmal-Antwortmaschine, sondern eher wie ein "Forschungsbegleiter".
Frühe Testnutzer nutzen es nicht nur, um Informationen zu suchen. Sie korrigieren Essays in mehreren Runden, finden Lücken in den Argumenten und stellen neue Analysestrategien vor. Es behält den gesamten Forschungsablauf im Gedächtnis, und jede Runde des Dialogs baut auf der vorherigen auf.
GPT-5.5 hat in der Mathematik eine bedeutende Leistung erbracht.
Ramsey-Zahlen, eines der zentral