StartseiteArtikel

Das Raw-Bild-Modell, das noch beliebter als Nano Banana ist, ist ausgelutscht. Screenshots sind keine Beweise mehr | Mit Prompt hinzufügen

爱范儿2026-04-19 09:04
Furchtbar real

Verweilst Ihre Vorstellung von Text-zu-Bild-Generierung noch beim Nano Banana?

Aber, mein Kind, die Zeit hat sich wieder verändert.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Anfang April tauchten auf der LM Arena-Bewertungsplattform drei anonyme Bildmodelle auf, mit den Codes maskingtape - alpha, packingtape - alpha und gaffertape - alpha. Einige Stunden später waren sie verschwunden.

OpenAI hat das Modell offiziell noch nicht angekündigt, aber anhand der von der API zurückgegebenen Metadaten und der Testaufzeichnungen auf Benutzerseite hat es bereits einen weitgehend akzeptierten Namen: GPT Image 2.

Screenshots können nicht mehr als Beweis herangezogen werden

In den letzten Jahren war eines der offensichtlichsten Schwächenpunkte von KI - gestützten Bildgenerierungsmodellen die Darstellung von Text in Bildern. In der Zeit von DALL - E 3 konnte es passieren, dass wenn Sie es anforderten, "Hello" in einem Bild zu schreiben, stattdessen "Hellp" oder sogar "Hl10" erschien, und die Buchstaben waren wie betrunken durcheinander. GPT Image 1 war schon viel besser und konnte einfache englische Beschriftungen verarbeiten. Mit GPT Image 1.5 lag die Genauigkeit bei der Darstellung von englischem Text bereits bei fast 95%, aber bei chinesischen, japanischen, koreanischen und anderen Nicht - Lateinischen Schriftzeichen waren noch deutliche Mängel vorhanden.

Die gefilterten Beispielbilder von GPT Image 2 haben diese Vorstellung geändert.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Der Text in den Bildern ist genau so, wie er sein sollte. Chinesisch ist deutlich lesbar, die Schriftzeichen haben die richtige Form und die Striche sind vollständig. Einige haben getestet, ein Bild im Stil einer Personalausweis zu generieren, und Name, Adresse und Ausweisnummer waren alle korrekt dargestellt, die Formatierung war ordentlich, und auf den ersten Blick sah es aus wie ein Foto eines echten Dokuments.

Das ist eine gute Nachricht. Der Fortschritt bei der Textgenerierung bedeutet, dass die Erstellung von Informationsgrafiken, Plakaten, Produktverpackungen und komplex formatierten Diagrammen zuverlässiger wird.

Aber jede Münze hat zwei Seiten. Ein Modell, das echt wirkende Ausweisbilder generieren und UI - Screenshots präzise darstellen kann, lässt die Aussage "Screenshots können als Beweis herangezogen werden" zunehmend in Frage stellen.

Im Vergleich ist dies auch der Kernunterschied zwischen der GPT Image - Serie und anderen Modellen. Midjourney hat bisher bei der Textgenerierung keine Erfolge erzielt, und auch die Stable Diffusion - Serie hat weiterhin diese alten Probleme. Laut den gefilterten Testergebnissen auf der Arena - Plattform übertrifft GPT Image 2 Midjourney in den vier Dimensionen Textgenerierung, Befehlsausführung, Fotorealismus und Weltwissen. Die Stärken von Midjourney liegen hauptsächlich in der Kunstrichtung und der ästhetischen Kontrolle.

Kennt es wirklich, wie die Welt aussieht?

Ein Tester hat das Modell aufgefordert, eine hypothetische Preisseite für ein GPT - 8 - Produkt zu generieren. Das resultierende Bild hatte tatsächlich das Design der OpenAI - Webseite, die Position der Buttons und die Schriftauswahl schienen aus einer echten Benutzeroberfläche ausgeschnitten zu sein, und die Hierarchie des Preistabellen war ebenfalls korrekt.

GPT Image 2 kann Bilder generieren, die echten Softwareoberflächen sehr ähnlich sind, einschließlich Browserfenstern, mobilen Anwendungsoberflächen und Datenvisualisierungsdiagrammen. Die Wiedergabetreue ist ungleich höher als die der Vorgängermodelle.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Dies bringt einige interessante praktische Anwendungen mit sich. Designer müssen bei der Erstellung von Produktprototypen nicht mehr zuerst Figma öffnen und eine Reihe von Rahmen zeichnen, sondern können einfach die gewünschte Oberfläche in Text beschreiben, und es wird ein Referenzbild generiert, das zur Diskussion mit dem Team verwendet werden kann. Bei der Erstellung von Investor - Decks kann ein "Produktscreenshot" gezeigt werden, ohne dass man auf die Programmierer warten muss. Beim Schreiben von Dokumenten können die Beispieloberflächen für Bilder direkt generiert werden, ohne dass man sich überlegt, wo man die Screenshots herholen soll.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Das Generieren von Bildern ist nicht mehr nur "Bildgenerierung"

OpenAI hat angekündigt, dass DALL - E 2 und DALL - E 3 am 12. Mai 2026 endgültig außer Betrieb genommen werden. Das DALL - E 3 von Azure OpenAI wurde bereits im Februar vorzeitig eingestellt.

DALL - E war für viele Menschen der erste Kontakt mit KI - gestützten Bildgenerierung. Von den unscharfen frühen Werken bis heute sind es nur wenige Jahre.

Zur gleichen Zeit könnte Google, das Anfang 2026 gerade mit Nano Banana Pro seine Position in der Branche festigte, unter Druck geraten. Frühe Testberichte zeigen, dass GPT Image 2 Nano Banana Pro in den drei Dimensionen Realismus, Textgenerierung und Weltwissen übertrifft. Ein solcher Dreifach - Sieg ist nicht alltäglich.

Für Künstler ist die Situation komplex. Illustrierer, Grafikdesigner und Fotografen haben diese Diskussion bereits mehrmals geführt. Seit der Veröffentlichung von GPT Image 1 ist die Anzahl der Freelance - Grafikdesigner - Stellen um etwa 18% gesunken. KI ersetzt in einigen Szenarien tatsächlich die Entscheidung, "Ich muss jemanden dafür anstellen", aber sie schafft auch neue Arbeitsweisen und ermöglicht es einem Menschen, mehr zu tun.

Die Evolutionsgeschwindigkeit der Bildgenerierungsmodelle lässt kaum Zeit für Anpassungen. Von der Veröffentlichung von GPT Image 1 bis zu Version 1.5 vergingen nur wenige Monate. Von 1.5 bis 2 waren es ungefähr sechs Monate. Jede neue Version löst die Kernprobleme der Vorgängerversion und eröffnet neue Möglichkeiten.

GPT Image 2 befindet sich derzeit in der A/B - Testphase. Einige ChatGPT - Benutzer haben bereits zufällig Zugang erhalten. Es wird allgemein vorhergesagt, dass es um die Zeit des Ausstiegs von DALL - E im Mai veröffentlicht wird. Wenn Sie es früher ausprobieren möchten, können Sie derzeit Ihr Glück auf der LM Arena - Bewertungsplattform versuchen.

Testadresse: https://arena.ai

Basierend auf den Feedback der Community und den bekannten Stärken dieses Modells können Sie die folgenden Hinweistemplates verwenden, um Ihre Erfolgschancen zu maximieren:

UI/Screenshot - Hinweis: Ein fotorealistischer Screenshot einer Mobilbankanwendung, der die Transaktionshistorie klar zeigt, wobei Datum, Betrag und Merchant - Name gut lesbar sind. iPhone