StartseiteArtikel

Fünf Monate nach Ultramans "Roter Alarm" hat GPT Image 2 die Tabellen dominiert und Google mit einem deutlichen Vorsprung zurückgeschlagen.

新智元2026-04-27 19:10
GPT Image 2 hat die Spitze der Arena erreicht und mit 241 Punkten Vorsprung einen Rekord aufgestellt.

【Einführung】Nach sechs Monaten unter der Dominanz von Google hat OpenAI endlich einen Gegenangriff unternommen. Innerhalb von 12 Stunden nach dem Release von GPT Image 2 hat es die Text-zu-Bild-Rangliste auf Arena erreicht und Nano Banana 2 um 241 Punkte übertroffen. Laut der Arena-Offizielle ist dies die bisher größte Punktedifferenz in der Text-zu-Bild-Rangliste von Image Arena.

Am Tag der Veröffentlichung hat es alle drei Ranglisten dominiert.

Innerhalb von 12 Stunden nach dem Release von GPT Image 2 hat es die drei Unterranglisten Text-to-Image (Text-zu-Bild), Single-Image Edit (Einzelbildbearbeitung) und Multi-Image Edit (Mehrbildbearbeitung) alle an der Spitze platziert.

Die Worte der Arena-Offizielle: „a clean sweep“ (Totaler Sieg).

Auf der Hauptrangliste für Text-zu-Bild hat GPT Image 2 1512 Punkte und Nano Banana 2 1271 Punkte. Die Differenz von 241 Punkten ist die größte in der Geschichte von Arena.

„Kein anderes Modell hat jemals Image Arena mit einer solchen Differenz dominiert“, so die Arena-Offizielle.

In allen Blindtests auf Image Arena hat GPT Image 2 eine Siegquote von 93 %: Bei 100 Bildpaaren haben die Teilnehmer in 93 Fällen das Bild von OpenAI gewählt.

„Wenn man DALL-E als Höhlenmalerei und Images 1.0 als antike Kunst ansieht, dann ist Images 2.0 die Renaissance.“

OpenAI hat Images 2.0 in der Einleitung der Pressekonferenz so vorgestellt, und Altman hat es sogar als Generationenübergreifende Verbesserung bezeichnet:

Es ist, als würde man plötzlich von GPT-3 zu GPT-5 springen.

https://www.youtube.com/watch?v=sWkGomJ3TLI

Die offizielle API-Dokumentation von OpenAI hat Images 2.0 mit der höchsten Bewertung ausgezeichnet.

https://developers.openai.com/api/docs/models/gpt-image-2

Aber die wirkliche Geschichte steckt nicht in den Daten.

Nach sechs Monaten unter der Dominanz von Google hat OpenAI endlich die Wende geschlagen

Gehen wir zurück in August 2025.

Google hat Nano Banana veröffentlicht. Dieses Bildgenerierungsmodell, das in Gemini integriert ist, hat auf der Konsumentenseite sofort eine Welle ausgelöst.

Drei Monate später, auf der Quartalsbilanzpräsentation im dritten Quartal, hat Google-CEO Sundar Pichai persönlich eine Reihe von Zahlen preisgegeben: Die monatliche Aktivität von Gemini ist von 450 Millionen im Juli auf 650 Millionen im Oktober gestiegen.

Josh Woodward, Leiter von Google Labs, hat erklärt, dass dieser Anstieg in hohem Maße auf die durch Nano Banana ausgelöste Bildgenerierungsbegeisterung zurückzuführen ist.

Im November hat Google Nano Banana Pro veröffentlicht. Die Textrendering-Fähigkeiten waren beeindruckend. Zum ersten Mal konnte ein KI-Bild richtig geschrieben werden, und OpenAI wurde auf der Konsumentenseite überholt.

Am 18. November hat Google einen weiteren Schlag zugeschlagen. Mit der Veröffentlichung von Gemini 3 hat es sofort die Spitze der LM Arena erreicht, mit 1501 Punkten, das erste führende Modell, das die 1500-Punkte-Marke überschritten hat.

Ende dieses Monats hat Altman ein internes Memorandum mit der Bezeichnung „Code Rot“ an das gesamte Unternehmen gesendet.

Laut einer Meldung von The Information hat Altman privat seinen Mitarbeitern gesagt, dass Gemini 3 OpenAI möglicherweise wirtschaftliche Schwierigkeiten bringen könnte. Yahoo Finance hat später berichtet, dass OpenAI unter dem „Code Rot“ die Entwicklung anderer Produkte wie AI Agent eingestellt und alle Ressourcen auf ChatGPT gelenkt hat.

Im Dezember hat OpenAI eilig GPT Image 1.5 herausgebracht. Es war an der Spitze der Arena, aber es hat auf der Konsumentenseite keine Welle geschlagen.

Im Februar 2026 hat Google erneut einen Schlag zugeschlagen. Nano Banana 2 ist aufgetaucht und hat erneut die Spitze der Arena erreicht.

OpenAI hat erneut verloren.

Es war erst am 21. April, als GPT Image 2 veröffentlicht wurde, dass OpenAI die Überholung absolvierte und die Wende geschlagen hat.

Das Zeichnen mit KI wird neu definiert

Warum kann GPT Image 2 um 241 Punkte voraus sein?

Die Kernantwort verbirgt sich auf der Architekturebene.

GPT Image 2 ist kein Diffusionsmodell aus der Generation von Stable Diffusion.

Boyuan Chen, Leiter der Forschung bei OpenAI, hat es als „revamped from scratch“ (von Grund auf neu aufgebautes) „generalist model“ (Allzweckmodell) bezeichnet. Innerhalb von OpenAI wird es als „Bildversion von GPT“ bezeichnet.

Aber Chen hat sich bei der Pressekonferenz weigert, öffentlich zuzugeben, ob es sich um ein Diffusions- oder ein autoregressives Modell handelt.

Die Öffentlichkeit versteht es allgemein als „Bildgenerierungssystem mit Inferenzplanung“: Es plant zunächst, bevor es zeichnet. Dies ist der größte Unterschied zwischen GPT Image 2 und den Bildmodellen der vorherigen Generation.

OpenAI hat in der offiziellen Erklärung ein neues Label vergeben: Das erste Bildmodell mit eingebauten Denkfähigkeiten (image model with native thinking capabilities).

Es denkt zunächst, bevor es zeichnet, überprüft sich selbst nach dem Zeichnen, sucht bei Bedarf im Internet nach Informationen und kann auf einmal acht zusammenhängende Bilder erstellen.

Es ist nicht ein Pinsel, sondern ein denkender visueller Assistent.

Die Einzelangaben der Arena-Rangliste zeigen:

Beim Text Rendering (Textwiedergabe) hat GPT Image 2 gegenüber der vorherigen Generation um 316 Punkte zugenommen; bei Cartoon- und Porträtbildern um jeweils 296 Punkte; in den drei Kategorien Produkt/3D/realistisch liegt die Zunahme zwischen +247 und +277 Punkten.

Das Problem der Textwiedergabe wurde erstmals im November 2025 von Nano Banana Pro gelöst, aber damals lag die Genauigkeit bei 94 %. GPT Image 2 hat es auf 99 % gebracht.

Auf der Pressekonferenz von OpenAI wurde demonstriert, dass GPT Image 2 eine Schüssel Reis zeichnen sollte, wobei nur auf einem Reiskorn der Name des Modells geschrieben war.

Konkret zur Fähigkeitsdemonstration hat Greg Brockman, Präsident von OpenAI, auf seinem X-Konto ein Beispiel gegeben.

Das erste Beispiel ist die Restaurierung alter Fotos.

Ein verblasstes und vergilbtes altes Familienfoto wird mit einem einfachen Prompt sofort in eine hochauflösende Farbversion umgewandelt.

Der Satz „high-fidelity image inputs“ (hochwertige Bildinput) in der offiziellen API-Dokumentation von OpenAI bezieht sich auf die Fähigkeit des Modells, die Details des Originalbildes zu bewahren: Es kann die Details verblasster, beschädigter und unscharfer alter Fotos am Eingang genau lesen und am Ausgang ein klares Bild neu rendern.

Im zweiten Beispiel hat Brockman eine Reihe von Testbildern eines Benutzers namens @doodlestein weitergeleitet: Mit demselben komplexen Prompt hat GPT Image 2 ein mathematisches Erklärungsbild gezeichnet.

Er hat kommentiert, dass GPT Image 2 auch bei komplexen Prompts Bilder in verschiedenen Stilen generieren kann.

@doodlestein hat GPT Image 2 getestet, indem er es mit demselben Prompt ein lineares Algebra-Erklärungsbild zeichnen ließ. Das Modell hat auf einmal vier völlig verschiedene Versionen gezeichnet: Bei derselben Kombination von Mona Lisa und der Lehre von Eigenvektoren waren die Komposition, die Farbgebung und die Informationsdichte jeder Version völlig unterschiedlich.

Der wahre Wert dieses Beispiels liegt nicht darin, dass es mathematische Bilder zeichnen kann, sondern dass es ein wichtiges Problem der KI-Bildgenerierung in den letzten zwei Jahren gelöst hat: Einfache Ausgabe und schlechte Kontrollierbarkeit der Varianten.

GPT Image 2 hat es erstmals möglich gemacht, dass „ein Prompt mir vier völlig verschiedene Richtungen liefert“ zu einer produktionsreifen Fähigkeit zu werden.

Ein erfahrener Tester von LM Arena hat kommentiert:

Die Differenz zwischen GPT Image 2 und Nano Banana Pro ist genauso groß wie die zwischen Nano Banana Pro und DALL-E.

Es ist eine ganze Generation gesprungen.

Eine Manga-Seite, die von GPT Image 2 im Thinking-Modus generiert wurde: Ausgehend von einem einfachen Prompt behält das Modell die Konsistenz der Charaktere bei und entwirft eine mehrteilige Geschichte.

DALL-E in den Ruhestand, Adobe Canva in die Enge getrieben

Am Tag der Veröffentlichung war die Integration in nachgelagerte Tools schneller als die Technologiebranche erwartet hatte.

Figma, Canva, Adobe Firefly, fal, Hermes Agent haben alle am 21. April die Integration abgeschlossen.

Die API-Preise verbergen sogar Gefahren:

Ein hochwertiges Bild kostet 0,21 US-Dollar; ChatGPT Plus kostet 20 US-Dollar pro Monat, und die Bildgenerierung ist bereits im Paket enthalten.

Hinter dieser Preisdifferenz könnte 2026 die größte Branchenumstrukturierung in der Bildgenerierungstechnik liegen.

Ein photorealistic candid (realistisches Momentaufnahmebild), das von GPT Image 2 generiert wurde. Küste, bewölkter Himmel, Vintage-Auto, Filmqualität – diese visuellen Effekte, die früher nur von professionellen Fotografen mit Außenaufnahmen und Nachbearbeitung erreicht werden konnten, kosten jetzt nur 0,21 US-Dollar pro Bild über die API. Gabriel Goh, Forscher bei OpenAI, hat gesagt, dass die Photorealismus-Fähigkeit dieses Modells ihn am meisten begeistert.

Am 12. Mai sind DALL-E 2 und DALL-E 3 offiziell in den Ruhestand gegangen.

Sie waren die Pioniere, die 2022 die gesamte AIGC-visuelle Revolution initiierten. Drei Jahre später wurden sie von ihrem Nachfolger bei OpenAI selbst in die Geschichte geschrieben.

OpenAI hat in der offiziellen Veröffentlichungserklärung erwähnt:

Bilder sind keine Dekoration, sondern Sprache. Ein gutes Bild tut dasselbe wie ein guter Satz: Es wählt, ordnet und offenbart.

Dies repräsentiert eine Wende in der Produktphilosophie.

Natürlich gibt es auch Gegenstimmen. ZDNet hat in einer praktischen Tests erkannt, dass GPT Image 2 Markenlogos nicht genau nachbilden kann. Selbst das eigene Logo von ZDNet wurde verzerrt gezeichnet.

Nano Banana 2 hat immer noch Vorteile bei der Porträtrealismus und der Konsistenz bei mehreren Referenzen.

Obwohl GPT Image 2 noch nicht