StartseiteArtikel

Echtzeit-Test des neuesten Bildgenerierungsmodells von OpenAI. Netizens: Alles ist verloren.

智东西2025-12-18 07:42
GPT Image 1.5 ist veröffentlicht. Die Bildgenerierungsgeschwindigkeit ist um das Vierfache erhöht, aber die Realismus ist immer noch schlechter als der von Nano Banana Pro.

Das Künstliche-Intelligenz-Gefühl von GPT Image 1.5 ist immer noch ein bisschen stark.

Kommt hier der preiswertere Ersatz für OpenAIs Nano Banana Pro?

Nach einer Meldung von Zhidongxi am 17. Dezember: Heute hat OpenAI sein neues Bildmodell GPT Image 1.5 vorgestellt. Dieses Modell zeichnet sich durch eine bessere Befolgung von Anweisungen, eine präzisere Bildbearbeitung und eine bessere Wahrung von Details aus. Die Generationsgeschwindigkeit beträgt viermal so viel wie beim Vorgängermodell.

OpenAI hat in seiner Promovideo die Fähigkeiten des Modells vorgestellt. Man kann sehen, dass GPT Image 1.5 die Personen im Bild exakt in verschiedene Hintergründe wie Weltraum oder Regenwald integriert hat und auch die Konsistenz der Personen in verschiedenen Stilen wie Handzeichnung oder Filz beibehalten hat.

Zur gleichen Zeit hat OpenAI in ChatGPT einen eigenen Bildgenerierungsbereich eingeführt, der verschiedene Vorlagen und Stile bietet, um die Kreativität zu erleichtern.

Diese Updates haben viele neue Spielarten freigeschaltet. OpenAI-Gründer und CEO Sam Altman hat sein von GPT Image 1.5 erstelltes „Feuerwehrmann-Kalenderjahrbuch“ gepostet.

Allerdings haben einige Internetnutzer festgestellt, dass der Kalender im Bild falsch ist. Viele Nutzer haben Altman auch gebeten, das eher unangenehme Foto zu löschen. Die offizielle ChatGPT-Account konnte es sich nicht verkneifen und hat mit GPT Image 1.5 Altman ein T-Shirt angezogen.

OpenAI hat bisher keine Benchmark-Tests veröffentlicht. Auf der renommierten Bewertungswebsite für KI-Modelle Artificial Analysis hat GPT Image 1.5 jedoch die Spitzenplätze in den beiden Listen für Text-zu-Bild-Generierung und Bildbearbeitung errungen und hat dabei sogar das Nano Banana Pro von Google übertroffen.

Auf der LMArena, der Wettbewerbsplattform für KI-Modelle, hat GPT Image 1.5 ebenfalls die Spitzenplätze in den beiden Listen für Text-zu-Bild-Generierung und Bildbearbeitung errungen.

GPT Image 1.5 wird nach Tokens berechnet, wobei der Preis von der Auflösung und der Qualitätseinstellung abhängt. Ein hochwertiges Bild mit einer Million Pixeln kostet etwa 133 US-Dollar pro Tausend (etwa 937 Yuan), ein niederwertiges Bild 9 US-Dollar pro Tausend (etwa 63 Yuan). Alle ChatGPT-Nutzer können ab heute dieses Modell nutzen, und die API wurde ebenfalls veröffentlicht.

Wie ist die technische Stärke von GPT Image 1.5 tatsächlich? Nach der Veröffentlichung haben viele Internetnutzer die Generierungsergebnisse von GPT Image 1.5 und Nano Banana Pro verglichen. Zhidongxi hat auch die Fähigkeiten der beiden Modelle getestet.

Unsere Eindrücke sind ähnlich wie die vieler Internetnutzer: Obwohl GPT Image 1.5 ein guter Bildgenerierungsalgorithmus ist, scheint es immer noch einen spürbaren Unterschied in Bezug auf Realismus und Detailgenauigkeit im Vergleich zu Nano Banana Pro zu geben.

01. Generierungsergebnisse haben deutlichen „Kunstfaktor“, Internetnutzer rufen: „OpenAI ist völlig am Ende“

Zunächst betrachten wir die Text-zu-Bild-Fähigkeit von GPT Image 1.5. Unser erster Hinweis testete das Modell unter komplexen Szenarien und bei der Darstellung von mehreren Objekten:

Ein ultrarealistisches Bild: An einer Straße in Tokio in einer Regennacht werden die Neonlichter auf der nassen Straße reflektiert. Im Vordergrund steht eine junge Frau in einem transparenten Regenmantel, die einen leuchtenden holografischen Schirm hält. Im Mittelgrund fährt langsam ein Taxi, und man kann das Gesichtsprofil des Fahrers im Fenster erkennen. Im Hintergrund ragen die Hochhäuser der Stadt und eine verschwommene Menge von Menschen auf. Kinoartige Komposition, flacher Tiefenschärfe, 4K-Details.

Was die Generationsgeschwindigkeit betrifft, hat Nano Banana Pro den Vorteil. Es benötigte etwa 15 Sekunden für die Ausgabe, einschließlich des Denkprozesses. Man kann sehen, dass Nano Banana Pro die Details im komplexen Hinweis exakt wiedergegeben hat, aber die Details des „leuchtenden holografischen Schirms“ nicht verstanden hat. Die Details des Taxis und der Straße wurden ebenfalls exakt wiedergegeben.

Anschließend hat GPT Image 1.5 auch ein Generierungsergebnis geliefert. Auf den ersten Blick fällt das deutliche „Künstliche-Intelligenz-Gefühl“ auf. Der Stil von GPT Image 1.5 ist sehr „fettig“, und die Sättigung ist sehr hoch. Was die Anforderung an das „sichtbare Gesichtsprofil des Fahrers im Fenster“ betrifft, hat GPT Image 1.5 es verwischt. Die Integration der Person und des Hintergrunds ist auch nicht natürlich und gibt das Gefühl, als wären sie auf zwei Ebenen.

Wenn man genauer hinsieht, kann man auch feststellen, dass die Figur im Bild nur vier Finger an der rechten Hand hat. Ein solcher grundlegender Fehler im menschlichen Körper ist für ein Bildgenerierungsmodell aus dem Jahr 2025 einfach nicht akzeptabel.

Der nächste Hinweis testete hauptsächlich die Fähigkeit des Modells bei der Stilübertragung und der semantischen Beschränkung:

Verwenden Sie den Stiftstil und die Farbpalette von Van Goghs „Sternennacht“, um die Innenhalle einer futuristischen Weltraumstation zu zeichnen: Hinter großen, gekrümmten Glasfenstern drehen sich Nebel und Planeten. Im Inneren schweben drei Astronauten in einer Mikrogravitationsumgebung und bedienen holografische Schnittstellen. Behalten Sie die starken Wirbelstriche bei, aber die Struktur sollte klar und die Objekte erkennbar sein.

Die Generierung von GPT Image 1.5 war wieder etwas langsamer. Lassen Sie uns zunächst das Ergebnis betrachten: Obwohl der Inhalt des Bildes im Allgemeinen korrekt ist, ist das Ergebnis in Bezug auf die wichtigsten starken Wirbelstriche und die Farbpalette von Van Goghs „Sternennacht“ eher mangelhaft. Der Unterschied zur Originalarbeit ist sehr deutlich.

Das Generierungsergebnis von Nano Banana Pro ist wie folgt. Man kann sehen, dass das Modell unter Berücksichtigung der Details den Stil von Van Goghs „Sternennacht“ exakt wiedergegeben hat, und die Farbpalette ist auch näher an der Originalarbeit.

Dieser Hinweis testete hauptsächlich die Detailkonsistenz. Die Perspektive des Bildes ist auch ungewöhnlich und kann die Fähigkeit des Modells in Randfällen zeigen:

Das Bild aus der ersten Person eines Kätzchens: In der Frühzeit in der Küche fällt das Sonnenlicht schräg durch das Fenster, und auf dem Tisch steht eine kochende Tasse Kaffee und ein gebissener Brotlaib. Unten im Bild sind die Vorderpfoten und die Bartspitzen des Kätzchens zu erkennen. Weitwinkelobjektiv, warme Farbtöne, lebendige Fotografie, hohe Details und reale Textur.

GPT Image 1.5 hat in diesem Randfall stark versagt. Zunächst hat das Kätzchen nur auf der einen Hälfte des Gesichts Bart, und Details wie die Nase fehlen komplett. Man kann es kaum als Kätzchengesicht erkennen, sondern eher als ein kleines Wollballchen. Darüber hinaus hat die Unschärfe des Hintergrunds die Realität des Bildes eher verschlechtert.

Das Generierungsergebnis von Nano Banana Pro ist wie folgt. Man kann sofort erkennen, dass es die erste Person eines Kätzchens ist, wie wir es verlangt haben. Die Wiedergabe von Licht und Schatten sowie die Details entsprechen unseren Anforderungen.

Viele Internetnutzer haben auch ihre Vergleichstests geteilt. Bei einem Portrait ist der Kopf der Person im von GPT Image 1.5 generierten Bild zu groß, und das Licht und Schatten wirkt weniger alltäglich. Das Ergebnis von Nano Banana Pro hat zwar etwas zu wenig Licht auf dem Gesicht und das Fenster ist etwas überbelichtet, aber diese Unvollkommenheiten geben dem Bild mehr Realität.

Der Internetnutzer, der dieses Generierungsergebnis geteilt hat, sagte: OpenAI ist völlig am Ende.

Allerdings hat ein anderer Nutzer ergänzt, dass man die Ergebnisse von GPT Image 1.5 realistischer gestalten kann, indem man Anforderungen wie „ungebearbeitete iPhone-Fotos“ oder „Farbprofil mit niedriger Sättigung“ in den Hinweis einfügt.

Der KI-Blogger Heisenberg hat den aktuellen Trend des Riesen-Effekts geteilt. Er meint, dass das Ergebnis von Nano Banana Pro viel natürlicher ist. In Bezug auf die Details hat GPT Image 1.5 viele Fehler gemacht, wie zwei Autos, die direkt