GPT-5.4 mini + nano greift plötzlich an. Mit einem Drittel des Preises kann man die "Hummer" wieder auf volle Gesundheit bringen. OpenAI hat sich total losgelassen.
Spät in der Nacht hat OpenAI die "Zwillinge" GPT-5.4 mini und nano vorgestellt. Ihre Leistung nähert sich der des vollen Modells, die Geschwindigkeit und Kosteneffizienz sind top. Sie sind ideal für die Codierung und als "Hauptmodell" in der "Lobster"-Anwendung!
OpenAI hat wieder eine Bombe geworfen, und das ganz stillschweigend.
Heute wurden GPT-5.4 mini und GPT-5.4 nano offiziell veröffentlicht.
Ohne Vorankündigung, ohne Countdown, einfach online gestellt.
Die Probleme, die diese beiden Modelle lösen sollen, sind klar: Wie kann man in einer realen Produktionsumgebung AI so einsetzen, dass sie schnell, genau und kostengünstig arbeitet?
Sie haben die Kernvorteile von GPT-5.4 übernommen, bieten maximale Geschwindigkeit und niedrigere Kosten und sind somit Spitzenleistungen im Bereich der leichten Modelle.
Zuerst die beeindruckendsten Zahlen:
Codierung (SWE-Bench Pro): GPT-5.4 mini erreichte 54,4%, während das volle GPT-5.4 57,7% erzielte.
Computergebrauch (OSWorld-Verified): GPT-5.4 mini erreichte 72,1%, was mit dem Ergebnis von GPT-5.4 (75%) vergleichbar ist.
Außerdem nähert sich die Leistung von mini in Aufgaben wie Inferenz und Tool-Aufruf direkt der von GPT-5.4.
Im Vergleich zum Vorgänger GPT-5 mini hat sich die Laufzeit von GPT-5.4 mini verdoppelt!
Netzuser sagen direkt, dass mini und nano perfekt als "Hauptmodelle" in der "Lobster"-Anwendung eingesetzt werden können!
GPT-5.4 mini hat einen riesigen Kontext von 400k. Der Eingangspreis beträgt 0,75 US-Dollar pro Million Tokens, der Ausgangspreis 4,50 US-Dollar pro Million Tokens.
Der Eingangspreis von GPT-5.4 nano beträgt 0,20 US-Dollar pro Million Tokens, der Ausgangspreis 1,25 US-Dollar pro Million Tokens.
Im Vergleich zu GPT-5.4 ist der Ausgangspreis von mini nur ein Drittel, und der von nano nur ein Zwölftel.
Jetzt sind Geschwindigkeit, Stärke und Kostengünstigkeit gleichzeitig gegeben.
Vor sechs Monaten war das noch völlig unmöglich.
Einige Benutzer, die es getestet haben, waren erstaunt und sagten, es sei einfach genial! Es sei nicht nur schnell, sondern auch neunmal billiger als Claude 4.6 Opus.
Horror-Evolution des Codes
mini erreicht das "volle" Modell, nano schlägt den Vorgänger
Schauen wir uns zuerst die Codierung an.
SWE-Bench Pro ist eines der härtesten Benchmarks zur Messung der "echten Codierungsfähigkeit" von großen Modellen. Es testet nicht mit Lückentexten, sondern lässt das Modell echte Software-Bugs auf GitHub direkt beheben.
GPT-5.4 mini erreichte 54,4%, nur 3,3% hinter dem vollen GPT-5.4 (57,7%).
Das bedeutet, dass ein kleines Modell, das auf Geschwindigkeit und Kosten optimiert ist, bei der Lösung realer Engineering-Probleme bereits die Grenzen des Flaggschiff-Modells erreicht hat.
Das Vorgängermodell GPT-5 mini erreichte nur 45,7%. Das ist ein Sprung von fast 9% zwischen den beiden mini-Modellen.
Der Unterschied bei Terminal-Bench 2.0 ist noch deutlicher. GPT-5.4 mini erreichte 60,0%, während GPT-5 mini nur 38,2% erreichte. Das ist eine Steigerung von über 57%.
Selbst das kleinste nano-Modell erreichte auf SWE-Bench Pro 52,4%, fast 7% besser als das Vorgänger-mini-Modell.
Ein ultra-leichtes Modell, das auf "Klassifizierung und Datenextraktion" ausgelegt ist, schlägt das mittelschwere Vorgängermodell in der Codierungsfähigkeit. Das ist die Evolutionsgeschwindigkeit von Distillationsmodellen in den letzten Monaten.
Für Entwickler hat diese Daten eine sehr direkte Bedeutung:
Für Codierungsaufgaben, die keine "volle Leistung" des Flaggschiff-Modells erfordern, wie gerichtete Codeänderungen, Frontend-Seitenerstellung, Debugging-Schleifen und Codebibliothekssuche, kann man jetzt alles an mini geben. Es ist doppelt so schnell und deutlich kostengünstiger, und die Ergebnisse sind fast unverändert.
Doktorwürdige Inferenz, Doppelsieg bei der komplexen Tool-Aufrufung
Die Codierung ist nur ein Aspekt. Die Fähigkeiten der Inferenz und der Tool-Aufrufung bestimmen, ob ein Modell wirklich "arbeiten" kann.
GPQA Diamond ist ein Benchmark für wissenschaftliche Inferenz auf Doktoratsebene. GPT-5.4 mini erreichte 88%, nur 5% hinter GPT-5.4.
Besonders bemerkenswert ist die "Tool-Aufrufsfähigkeit".
Toolathlon misst hauptsächlich die Leistung eines Modells in komplexen Toolketten. Es geht nicht nur darum, eine API aufzurufen, sondern darum, in mehrstufigen Aufgaben verschiedene Tools richtig zu kombinieren, zu sortieren und zu verwenden.
Das Ergebnis: GPT-5.4 mini erreichte 42,9% und schlug damit GPT-5 mini (26,9%) völlig.
Außerdem erreichte mini auf dem branchenspezifischen Benchmark τ2-bench in der Telekombranche 93,4%, fast so gut wie das volle Modell mit 98,9%, und ließ GPT-5 mini (74,1%) weit hinter sich.
Auf einem anderen Tool-Aufruf-Benchmark, MCP Atlas, erreichte GPT-5.4 mini 57,7%, während GPT-5 mini nur 47,6% erreichte.
All diese Zahlen lassen sich in einem Satz zusammenfassen: GPT-5.4 mini ist nicht nur ein "verkleinertes intelligentes Modell", sondern ein echter Ausführender, der in einer Produktionsumgebung komplexe Aufgabenketten unabhängig erledigen kann.
"Hauptmodell" in der "Lobster"-Anwendung
Kleine Modelle können auch "am Bildschirm arbeiten"
Was wirklich überraschend an GPT-5.4 mini ist, ist seine Leistung beim Computergebrauch.
Wie benutzt ein Mensch einen Computer? Er schaut mit den Augen auf die UI-Elemente auf dem Bildschirm, entscheidet mit dem Gehirn, worauf er klicken soll, und bedient dann Maus und Tastatur mit der Hand.
Wenn AI wirklich dein "cybernetischer Assistent" werden soll, muss es auch diese Fähigkeiten erlernen - eine informationsreiche Bildschirmaufnahme schnell analysieren, Buttons, Eingabefelder und Datenlisten lokalisieren und dann die richtigen Aktionen ausführen.
OSWorld-Verified misst diese kombinierte Fähigkeit aus "visuellem Verständnis + Inferenz + Aktion".
Auf dieser Liste erreichte GPT-5.4 mini 72,1%, während das Flaggschiffmodell GPT-5.4 75,0% erreichte. Der Unterschied beträgt weniger als 3 Prozentpunkte.
Im Vergleich erreichte GPT-5 mini nur 42,0%. In einer Generation hat sich die Computergebrauchsfähigkeit fast verdoppelt.
Allerdings erreichte nano in diesem Test nur 39,0%, sogar etwas weniger als das Vorgängermodell GPT-5 mini mit 42,0%.
Das zeigt, dass der Computergebrauch eine hohe Schwelle an visueller Inferenzfähigkeit für das Modell erfordert. Es reicht nicht, das Modell einfach zu verkleinern, um die Leistung zu erhalten: Zwischen mini und nano besteht eine klare Leistungslücke.
Bei MMMUPro (mit Python-Tools) erreichte mini 78,0%, das Flaggschiffmodell 81,5%. Der Unterschied ist ebenfalls gering.
Dieser Benchmark umfasst eine Vielzahl komplexer Aufgaben, die eine Kombination aus visuellen Informationen und mathematischen/Code-Tools erfordern.
Diese Ergebnisse haben eine große Bedeutung für eine bestimmte Richtung: AI-Agenten.
Wenn ein kleines Modell eine informationsreiche UI-Aufnahme schnell analysieren und bei geringer Latenz die richtigen Aktionen ausführen kann, wird es zu einem idealen Motor für die Erstellung von Echtzeit-Computergebrauchs-Agenten - kostengünstig, schnell und leistungsfähig.
In einem neuesten Interview von TBPN hat Altman seine nächste Vision klar gemacht: