Alles über GPT-5.5 auf einen Blick: Ab heute verkauft OpenAI keine Tokens mehr.
Am 23. April Ortszeit hat OpenAI offiziell das neue Flaggschiffmodell GPT-5.5 vorgestellt. Das Unternehmen positioniert es als "ein neues Intelligenzniveau für den realen Arbeitsalltag" und als einen wichtigen Schritt hin zu einer neuen Art des Computerarbeitsablaufs.
Bei dieser Veröffentlichung stehen zwei Aspekte im Mittelpunkt:
Erstens, ein Durchbruch auf Effizienzebene: Bei gleicher Latenz ist das Modell größer, aber die Geschwindigkeit hat sich nicht verlangsamt. Das Kontextfenster von GPT-5.5 erreicht 1 Million Token. Es ist jedoch keine einfache Leistungssteigerung von GPT-5.4, sondern es bietet bei gleicher Latenz eine höhere Intelligenz.
Zweitens, während des Trainings von GPT-5.5 hat es an der Optimierung seiner eigenen Inferenzinfrastruktur teilgenommen. Kurz gesagt, hat die KI erstmals gelernt, ihre eigenen Parameter zu optimieren.
Im Terminal-Bench 2.0, einem Test für komplexe Befehlszeilenworkflows, hat GPT-5.5 einen Score von 82,7% erreicht, was 13 Prozentpunkte besser ist als der von Claude Opus 4.7 (69,4%). Im OSWorld-Verified, einem Test für die unabhängige Bedienung eines realen Computers durch KI, hat es eine Erfolgsrate von 78,7% erreicht, was die menschliche Basislinie übertrifft. Im GDPval, einem Test für Wissensarbeit in 44 Berufen, hat es in 84,9% der Aufgaben das Niveau von Branchenexperten erreicht oder übertroffen.
Allerdings hat sich der Preis von GPT-5.5 auch deutlich erhöht.
Die API-Preise betragen 5 US-Dollar pro Million Token Eingabe und 30 US-Dollar pro Million Token Ausgabe. Dies ist doppelt so viel wie bei GPT-5.4 (2,50 US-Dollar pro Million Token Eingabe und 15 US-Dollar pro Million Token Ausgabe). Das Unternehmen betont jedoch, dass GPT-5.5 für die gleichen Aufgaben deutlich weniger Token benötigt, sodass die Gesamtkosten möglicherweise nicht wesentlich steigen. Der Preis für die GPT-5.5 Pro API beträgt 30 US-Dollar pro Million Token Eingabe und 180 US-Dollar pro Million Token Ausgabe. Bei der Massenverarbeitung und flexiblen Preisen gibt es eine 50-prozentige Rabattierung. Die Prioritätsverarbeitung kostet das 2,5-fache des Standardpreises.
In ChatGPT wird GPT-5.5 als "GPT-5.5 Thinking" eingeführt und ersetzt schrittweise die vorherigen Versionen.
Ein neues kleines Feature ist, dass das Modell vor dem Denken eine kurze Überlegungszusammenfassung bietet. Benutzer können während der Ausführung jederzeit unterbrechen und die Richtung ändern.
Wenn man die Bedeutung von GPT-5.5 in einem Satz zusammenfassen möchte: Frühere Modelle waren eine Sammlung von Fähigkeiten, während GPT-5.5 eher einem Arbeitsystem ähnelt, das planen, überprüfen und kontinuierlich voranschreiten kann.
01 84,9% der Aufgaben erreichen das Niveau von Fachleuten
Abbildung: Vergleich von GPT-5.5 mit anderen Wettbewerbern in Kernbenchmarktests wie Terminal-Bench 2.0, GDPval und OSWorld-Verified
Schauen wir uns zunächst die Leistung des Modells in realen Berufsszenarien an. OpenAI hat einen Benchmarktest namens "GDPval" durchgeführt, der das Modell auffordert, eine Reihe von Berufsaufgaben zu erledigen. Der Test deckt 44 Berufsszenarien ab, darunter Finanzmodellierung, juristische Analyse, Datenwissenschaftsberichte, Betriebsplanung und vieles mehr.
Die Ergebnisse zeigen, dass GPT-5.5 in 84,9% der Aufgaben das Niveau von Branchenexperten erreicht oder übertrifft. Im Vergleich dazu erreichte GPT-5.4 83,0%, Claude Opus 4.7 80,3% und Gemini 3.1 Pro nur 67,3%.
Dieser Unterschied zeigt sich nicht nur in den Gesamtscores. Bei der Tabellenkalkulationsmodellierung erreichte GPT-5.5 in internen Tests 88,5%. Auch bei Investmentbankmodellierungen liegt es voraus. Die Rückmeldungen von frühen Testern stimmen überein: Die Antworten von GPT-5.5 Pro sind in Bezug auf Vollständigkeit, Struktur und Nützlichkeit im Vergleich zu GPT-5.4 Pro deutlich verbessert, insbesondere in den Bereichen Business, Recht, Bildung und Datenwissenschaft.
Wenn man nur die Zahlen sieht, kann man leicht desinteressiert werden. Deshalb zeigt OpenAI diesmal seine eigenen Arbeitsplätze.
OpenAI hat mitgeteilt, dass über 85% seiner Mitarbeiter wöchentlich Codex nutzen, was die Finanz-, Kommunikations-, Marketing-, Produkt- und Datenwissenschaftsabteilungen umfasst. Das Kommunikationsteam hat damit sechs Monate lang Daten zu Vortragsangeboten analysiert und einen automatisierten Klassifizierungsprozess eingerichtet. Das Finanzteam hat damit 24.771 K-1-Steuerformulare mit insgesamt 71.637 Seiten überprüft und zwei Wochen früher als im Vorjahr fertiggestellt. Das Marketingteam spart pro Person und Woche 5 bis 10 Stunden durch die automatisierte Wochenberichterstellung.
Dies ist kein Labor-Demo, sondern ein Teil des täglichen Arbeitsalltags.
02 Das stärkste eigenständige Programmier-Modell
OpenAI behauptet, dass GPT-5.5 derzeit sein stärkstes eigenständiges Programmier-Modell ist.
Im Terminal-Bench 2.0 (Test für komplexe Befehlszeilenworkflows, der Planung, Iteration und Werkzeugkoordination erfordert) erreichte GPT-5.5 einen Score von 82,7%, was im Vergleich zu GPT-5.4 (75,1%) eine Steigerung von fast 8 Prozentpunkten darstellt und gleichzeitig weniger Token verbraucht. Im SWE-Bench Pro (Beurteilung der Fähigkeit, echte GitHub-Probleme in einem Schritt zu lösen) erreichte GPT-5.5 einen Score von 58,6%. Auch im internen Expert-SWE-Test (langfristige Programmieraufgaben, mittlere menschliche Bearbeitungszeit ca. 20 Stunden) übertrifft GPT-5.5 GPT-5.4.
Abbildung: Streudiagramm von Terminal-Bench 2.0 und Expert-SWE
Unter der Führung von GPT-5.5 kann Codex ab einer einzeiligen Anweisung den gesamten Entwicklungsablauf von der Codegenerierung über die Funktionsprüfung bis zur visuellen Fehlersuche unabhängig durchführen.
Die offiziellen Demo-Beispiele von OpenAI zeigen, dass eine Weltraumaufgabenanwendung auf echten NASA-Bahndaten basiert, 3D-Interaktionen unterstützt und die Bahnmechaniksimulation auf reale physikalische Genauigkeit erreicht. Ein Erdbeben-Tracker greift auf Echtzeitdaten zu und visualisiert sie, was zeigt, dass das Modell die Fähigkeit hat, externe APIs aufzurufen, dynamische Daten zu verarbeiten und in Echtzeit zu rendern.
Was die Benutzerrückmeldungen angeht, erzählt Dan Shipper, Gründer und CEO von Every, von einer Erfahrung: Er hatte früher einen Bug nach der Veröffentlichung eines Produkts, den er mehrere Tage lang nicht beheben konnte. Schließlich musste er den stärksten Ingenieur des Unternehmens heranziehen, um einen Teil des Systems neu zu schreiben. Nachdem GPT-5.5 erschienen war, führte er ein Experiment durch - er stellte das Modell in den Zustand zurück, bevor der Bug behoben wurde, und sah, ob es die gleiche Lösung wie der Ingenieur finden konnte. GPT-5.4 konnte es nicht, GPT-5.5 konnte es. Er beurteilte: "Dies ist das erste Programmier-Modell, das ich benutzt habe, das wirklich eine klare Vorstellung hat."
Ein NVIDIA-Ingenieur war noch direkter: "Verlieren Sie den Zugang zu GPT-5.5, und es fühlt sich an, als hätten Sie einen Arm oder ein Bein amputiert."
Michael Truell, Mitgründer und CEO von Cursor, fügt hinzu: "GPT-5.5 ist klüger und geduldiger als GPT-5.4 und kann bei komplexen, langfristigen Aufgaben länger durchhalten, ohne vorzeitig aufzugeben - und das ist genau das, was in der Ingenieurarbeit am meisten benötigt wird."
03 Wissensarbeit: Die KI kann erstmals wirklich einen Computer "benutzen"
Im OSWorld-Verified-Test (Test, ob das Modell einen realen Computer unabhängig bedienen kann) erreichte GPT-5.5 eine Erfolgsrate von 78,7%, was höher ist als die von GPT-5.4 (75,0%) und Claude Opus 4.7 (78,0%).
Dies ist keine Screenshot-Analyse, sondern eine echte Bildschirmbedienung: Das Modell sieht die Benutzeroberfläche, klickt, gibt Eingaben ein und wechselt zwischen verschiedenen Werkzeugen, bis die Aufgabe abgeschlossen ist. GPT-5.5 lässt erstmals das Gefühl aufkommen, dass die KI wirklich gemeinsam mit Ihnen denselben Computer nutzen kann.
Finanzmodellierungs-Demo-Video
Im Tau2-bench, einem Test für den Arbeitsablauf von Telekommunikationsbetreuern, erreichte GPT-5.5 eine Genauigkeit von 98,0% ohne Anpassung der Anweisungen, während GPT-5.4 nur 92,8% erreichte.
Das bedeutet, dass das Modell die Aufgabe gut versteht und komplexe, mehrstufige Dialogabläufe ohne sorgfältig gestaltete Anweisungen bearbeiten kann.
Beim Suchvermögen für Werkzeuge erreichte GPT-5.5 im BrowseComp-Test einen Score von 84,4%, und GPT-5.5 Pro sogar 90,1%. Das bedeutet, dass das Modell in Forschungsaufgaben, die eine umfassende Schlussfolgerung über mehrere Informationsquellen erfordern, eine starke Fähigkeit zur kontinuierlichen Suche und Informationsintegration zeigt.
04 Wissenschaftliche Forschung: Unterstützung bei der Entdeckung neuer mathematischer Beweise
Bei dieser Veröffentlichung war die Leistung von GPT-5.5 im Bereich der wissenschaftlichen Forschung möglicherweise der am meisten überraschende Aspekt.
Bisher haben wir bei der Verwendung von KI in der Forschung eher von "Hilfswerkzeugen" gesprochen, die zum Recherchieren von Literatur, Schreiben von Code und Organisieren von Daten eingesetzt werden. Diesmal hat ihre Rolle jedoch deutlich zugenommen, und sie beginnt, an zentraleren Prozessen teilzunehmen: komplexe Schlussfolgerungen und sogar die Entdeckung selbst.
Im GeneBench (Beurteilung der mehrstufigen Datenanalyse in Genetik und quantitativer Biologie) erreichte GPT-5.5 einen Score von 25,0%, während GPT-5.4 19,0% erreichte. Diese Aufgaben entsprechen normalerweise der Arbeit von Wissenschaftsexperten über mehrere Tage. Das Modell muss in fast völliger Unabhängigkeit fehlerhafte Daten analysieren, versteckte Störfaktoren berücksichtigen und moderne statistische Methoden anwenden.
Aus der Diagrammkurve lässt sich erkennen, dass mit zunehmender Anzahl der ausgegebenen Token der Score von GPT-5.5 immer stärker von dem von GPT-5.4 abweicht und bei etwa 15.000 Token einen deutlichen Abstand erreicht. Dies bedeutet, dass bei langwierigen Aufgaben, die tiefe Schlussfolgerungen erfordern, der Vorteil von GPT-5.5 mit zunehmender Komplexität der Aufgabe noch stärker wird.
Im BixBench (echtweltlicher Benchmarktest für Bioinformatik und Datenanalyse) führte GPT-5.5 mit einem Score von 80,5% vor GPT-5.4 (74,0%) an und belegte eine Spitzenposition unter den