StartseiteArtikel

GPT-5.5 ist da und dominiert Opus 4.7 an erster Stelle in allen Listen. OpenAI rächt sich heute Nacht.

新智元2026-04-24 08:13
Gerade eben hat Altman in der Nacht GPT-5.5 herausgebracht! Es schlägt Claude Opus 4.7 in jeder Hinsicht und erobert erneut den Thron des stärksten KI-Systems auf der Erde. Vom Schreiben von Code bis zur Durchführung von Forschung: Die Zeit, in der KI Computer unabhängig übernimmt, ist wirklich da!

Silicon Valley schläft heute Nacht nicht!

Gerade jetzt ist GPT-5.5 erschütternd aufgetaucht – das bisher stärkste und vielseitigste neue Flaggschiffmodell von OpenAI.

Es ist eine neue Stufe der Künstlichen Intelligenz, vollständig evolviert zum „eingeborenen Gehirn“ der Agentenzeit.

Ja, es ist der allseits erwartete „Kartoffel“ (Spud), der endlich heute auftauchte.

Das Interessanteste ist, dass GPT-5.5 in allen Benchmark-Tests: Platz 1!

Ob in Programmierung, logischem Denken, Mathematik oder bei Agentenaufgaben, Claude Opus 4.7 und Gemini 3.1 Pro werden von GPT-5.5 völlig unterdrückt.

Im Vergleich zur Vorgängerversion ist GPT-5.5 Thinking eine „Dimensionseinbuße“ und hat die Generationsebene deutlich erhöht.

Im AAI-Test hat GPT-5.5 bei der gleichen Anzahl von ausgegebenen Tokens den höchsten Intelligenzindex weltweit. Auch im ARC-AGI-2 hat es einen neuen SOTA-Wert erreicht.

Altman kann es nicht lassen, es hoch zu loben: „GPT-5.5 ist sowohl intelligent als auch schnell.“

Die Geschwindigkeit pro Token ist genauso schnell wie bei GPT-5.4, und die Anzahl der verwendeten Tokens pro Aufgabe ist deutlich reduziert.

Es kann fast intuitiv verstehen, was es tun soll!

Der CEO Greg ist begeistert: „Dies ist ein Schritt in Richtung einer neuen Art des Computerarbeitsablaufs.“

Ab heute ist GPT-5.5 in ChatGPT und Codex offiziell verfügbar.

Der neue König der Programmierung ist da, Opus 4.7 stürzt vom Thron

Schauen wir uns zunächst den Kernbereich der Programmierung an. GPT-5.5 hat einen wunderschönen Comeback hingelegt!

Mit den Worten von OpenAI ist es das bisher stärkste Agenten-Programmierungsmodel.

Der Terminal-Bench 2.0-Test misst die Fähigkeiten bei der Agentenentwicklung im gesamten Prozess.

Die Aufgabe gibt dem Modell eine Terminalumgebung und ein vages Ziel, und es muss selbst den Weg planen, Tools einstellen, Skripte schreiben, Fehler behandeln und wiederholt iterieren.

Hier hat GPT-5.5 82,7% erreicht, GPT-5.4 75,1% und Claude Opus 4.7 nur 69,4%. Ein Unterschied von 13 Prozentpunkten, eine dominierende Leistung.

Bei der internen Expert-SWE-Bewertung von OpenAI, die speziell für langfristige Programmierungsprojekte mit einer geschätzten mittleren Bearbeitungszeit von 20 Stunden für Menschen konzipiert ist, hat GPT-5.5 73,1% erreicht, ebenfalls höher als GPT-5.4 mit 68,5%.

Im SWE-Bench Pro, einer Bewertung, die allgemein als repräsentativ für die Fähigkeit zur Lösung realer GitHub-Probleme gilt, hat GPT-5.5 58,6% erreicht, etwas hinter Claude Opus 4.7 (64,3%) zurückliegend.

Allerdings hat OpenAI neben diesen Daten ein Sternchen gesetzt und geschrieben: „Anthropic berichtet von Anzeichen von Überanpassung (Gedächtnis) in einigen Teilproblemen.“

Mit anderen Worten, obwohl Opus 4.7 gute Testergebnisse hat, bezweifle ich, dass es die Antworten auswendig gelernt hat.

Ein Codex-Forscher sagt direkt: Der SWE-Bench kann die Spitzenfähigkeiten in der Programmierung nicht mehr messen.

Das Wichtigste ist, dass GPT-5.5 in diesen drei Bewertungen weniger Tokens verwendet, aber dennoch GPT-5.4 in allen Aspekten übertrifft.

Diese Fähigkeit wird in Codex noch deutlicher.

Es kann „End-to-End“-Programmieraufgaben erledigen, von der Implementierung, der Umgestaltung bis zur Fehlersuche, zum Testen und zur Validierung.

Nehmen wir als Beispiel, dass GPT-5.5 eine Visualisierungsanwendung für die Artemis II-Raumfahrtmission erstellen soll.

Zunächst wird GPT-5.5 ein Screenshot der Mission gegeben, und es wird gefordert, einen interaktiven 3D-Orbit-Simulator mit WebGL und Vite zu implementieren. Die Bahnendaten müssen aus den echten Vektordaten von NASA/JPL Horizons stammen, und es muss auch eine realistische Bahnmechanik geben.

Und siehe da, GPT-5.5 baut alles von Grund auf. Mit der Maus kann man drehen, und die relativen Positionen der Orion-Raumfähre, des Mondes und der Sonne stimmen überein.

Nehmen wir noch ein Beispiel: Ein Panzer schießt auf UFOs.

Die Anweisung lautet, ein UFO-Schießspiel mit Three.js zu erstellen. Der Spieler steuert einen Panzer und schießt auf die überfliegenden UFOs. Es soll „wenig Polygone, aber schön“ sein. Zunächst soll die vollständige Dateistruktur und die Liste der zu ändernden Dateien angegeben werden, und dann soll der gesamte Code geschrieben werden. „Nicht aufhören, bis es fertig ist.“

GPT-5.5 führt alles aus. Von der Dateistruktur über die Three.js-Renderung bis zur Schussbestimmung liefert es ein spielbares 3D-Spiel.

In der 3D-Dungeon-Arena übernimmt Codex die Spielarchitektur, die Implementierung in TypeScript/Three.js, das Kampfsystem, die Gegencounter und die HUD-Rückmeldung.

GPT erzeugt die Umgebungstexturen, die OpenAI-API erzeugt die Charakterdialoge, und die Charaktermodelle, Texturen und Animationen stammen aus Drittanbieter-Tools. Mehrere KI-Systeme arbeiten zusammen und erstellen ein spielbares Kampfspiel.

Frühe Tester sagen direkt, dass GPT-5.5 eine stärkere Fähigkeit hat, die Systemstruktur zu verstehen.

Es kann besser beurteilen, wo das Problem liegt, wo die Reparatur vorgenommen werden muss und welche anderen Teile der Codebasis davon betroffen sind.

85% der OpenAI-Mitarbeiter nutzen es wahnsinnig, dies ist die echte arbeitsfähige KI

Ausßerhalb der Programmierung sind auch die Daten von GPT-5.5 bei „Wissensarbeit“ beeindruckend.

Schließlich nennt OpenAI es „eine neue KI für reale Arbeitsaufgaben“.

Es kann schneller verstehen, was Sie tun möchten, und zwischen verschiedenen Tools wechseln, bis die Aufgabe erledigt ist.

Beim GDPval, einer Bewertung der Fähigkeit von KI, in 44 Berufen standardisierte Wissensarbeit zu erledigen, hat GPT-5.5 84,9% erreicht, Opus 4.7 80,3% und Gemini 3.1 Pro nur 67,3%.

Beim OSWorld-Verified, einem Test, ob das Modell eine echte Computerenvironment unabhängig bedienen kann, hat GPT-5.5 78,7% erreicht, fast gleich mit Opus 4.7 (78,0%).

Beim Tau2-bench, einem Test, ob das Modell in einem komplexen Kundendienst-Workflow mehrstufige Dialoge behandeln, das System abfragen und Aktionen ausführen kann, erreicht GPT-5.5 [