So fein, dass man auf einem Reiskorn schreiben kann: OpenAI lässt Vertrauen in Screenshots auf Null sinken

Es kann kein Bild sofort als vertrauenswürdig angesehen werden.

In der heutigen Zeit, in der die KI - Giganten in einem heftigen Wettstreit stehen, hätte niemand gedacht, dass es ein Text - zu - Bild - Modell geben würde, das dank Ranglisten - Daten einen erheblichen Abstand zu anderen Modellen herstellen kann.

Ja, es geht um GPT Images 2 .

Ich denke, dass die meisten von euch die Testbeispiele schon gesehen haben und in der Lage sind, die Verbesserungen gegenüber der vorherigen Version zusammenzufassen.

Zum Beispiel bietet es eine hochpräzise und dicht gepackte Textrendering, insbesondere bei chinesischen Texten, und kann sogar ausführbaren Code generieren. Es kann realistische und fast gruselige UI - Screenshots simulieren. Gestern haben sicherlich viele Menschen von einem Tweet über Claude Code getäuscht werden lassen. Die Bildqualität und das ästhetische Niveau sind ebenfalls stark verbessert. Die Wahrscheinlichkeit für die peinlichen, sofort als KI erkennbaren Beleuchtungen ist deutlich gesunken, was Midjourney wahrscheinlich einen Schreck einjagt. Es verfügt über eine starke Inferenzfähigkeit, kann viele Details bemerken, die nicht explizit beschrieben wurden, und bietet eine Interaktionserfahrung, die immer näher an der eines großen Sprachmodells kommt. Was die Schwächen betrifft, hat OpenAI selbst zugegeben, dass seine Fähigkeiten bei der Raumwahrnehmung noch nicht ausreichen.

Natürlich kann man auch nach eigenen Tests feststellen, dass viele oft wiederholte Argumente immer noch zutreffen: Der Designbereich wird nicht zusammenbrechen. Ästhetik und Kreativität gehören weiterhin den Menschen. Wer am meisten davon profitiert, sind die Werbetreibenden. Der Marktwert der Branche muss tatsächlich neu bewertet werden, aber er wird nicht auf Null gehen. Man muss bedenken, dass jedes Mal, wenn ein sensationelles KI - Modell veröffentlicht wird, sind es die Anfänger, die Geschäftsführer und die Investoren, die am meisten aufgeregt sind. Man weiß, was die Geschäftsführer und die Investoren vorhaben. Unter "Anfängern" versteht man nicht nur absolute Laien, sondern auch Menschen, die in ihren Berufen künstlerische Kreativität benötigen. Zum Beispiel können Werbedirektoren so enorme Kosten für Aufnahmen und Nachbearbeitung sparen. Zumindest zurzeit wird KI eher eingesetzt, um die Schwächen der Menschen auszugleichen, als sie zu ersetzen.

Aber anstatt die Frage nach der menschlichen Ersetzung sollten wir uns vielleicht um eine andere Gefahr kümmern: Das Vertrauen der Menschen in Bilder könnte zusammenbrechen. Von nun an muss man bei jedem Screenshot vorsichtig sein.

01

In dieser Bewertung von GPT Images 2 werden wir die oben genannten Stärken wie Textrendering, UI - Simulation, feine Kontrolle und starke Inferenzfähigkeit auf ihre Grenzen testen, um herauszufinden, wo die Grenzen liegen und wie groß die Sicherheitsrisiken sind.

Zuerst betrachten wir das Textrendering. Ich habe besonders auf ein von OpenAI veröffentlichtes Bild geachtet, das scheinbar nur ein einfacher Haufen weißer Reis auf einem Leinenstoff ist.

Aber wenn man hineinzoomt, gibt es eine Überraschung: Man kann auf einem Reiskorn in der Mitte die Schrift "GPT Image 2" lesen.

Dieses Bild war das beeindruckendste offizielle Beispiel für mich.

Ich habe sofort versucht, dieses Beispiel zu reproduzieren. Aber nach mehreren Versuchen mit ChatGPT und Lovart war das Ergebnis eher mäßig. In den meisten Fällen waren entweder alle Reis Körner so groß, dass man problemlos Schrift darauf schreiben konnte.

Oder es wurde auf eine "schummelige" Weise geschrieben, z. B. wurden nur die Reis Körner, auf denen geschrieben wurde, sehr groß.

Später habe ich es mit einer mehrstufigen Iterationsmethode versucht, indem ich den Modell aufgefordert habe, die Reis Körner mit Schrift zu verkleinern. Nach mehreren Versuchen sah es endlich annähernd richtig aus, aber die Schrift war kaum noch lesbar.

Dann habe ich festgestellt, dass das von OpenAI angebotene Beispiel in 4K - Auflösung vorliegt, während man bei der kostenlosen Nutzung auf ChatGPT und Lovart nur Bilder in 1K - Auflösung generieren kann. Deshalb habe ich ein Abonnement gekauft, um die höchste Qualität und Auflösung von GPT Image 2 zu testen (über Higgsfield AI ). Alle folgenden Bilder basieren auf dieser Spezifikation.

Hat die höchste Spezifikation die Reproduktion möglich gemacht? Nein. Die gleichen Probleme traten immer wieder auf. Entweder waren alle Reis Körner zu groß, oder die Reis Körner mit Schrift waren zu groß, egal wie oft ich das Modell daran erinnerte, dass "die Schrift nur 75x30 Pixel groß sein soll" und "die Reis Körner mit Schrift genauso groß wie die anderen sein sollen".

Hier sind zwei Beispiele, die ich als ziemlich beeindruckend finde. Das erste Bild zeichnet sich durch die physikalische Realität des Textrenderings aus, das zweite durch die kleine aber klare Schrift.

Als nächstes habe ich es herausgefordert, das "Zhiwei" aus dem obigen Bild auf ein anderes Reis Korn zu kopieren. Diesmal war es relativ glatt, aber es war offensichtlich, dass das Modell ein neues Reis Korn generiert hatte, um die Schrift darauf zu schreiben.

Was passiert, wenn man auf einem Reis Korn eine Menge Text, z. B. ein Gedicht, schreiben lässt? Wieder traten die "schummeligen" Methoden auf. Selbst wenn ich die Schriftgröße auf ein Zehntel der ursprünglichen Größe reduzierte und darauf bestand, dass das Reis Korn mit dem Gedicht nicht größer als die anderen ist, sah es immer noch unangemessen aus.

Als ich das Gedicht von einer Tang - Dichtung zu einer Song - Dichtung wechselte, hat das Modell einfach eine Handvoll Reis unbekannten Sortiments verwendet, um darauf zu schreiben.

Hier musste ich aufgeben. Entweder habe ich die richtigen Prompt - Wörter nicht gefunden, oder OpenAI hat ein zufälliges Ergebnis geliefert, oder OpenAI hat es mit einer höheren Rechenleistung generiert. Da man die Schrift erst nach dem Hineinzoomen sehen kann, könnte dies eine zusätzliche Komplexität und Inferenzschwierigkeit bedeuten. Das Modell verliert möglicherweise an Intelligenz, um Rechenleistung zu sparen. Wir haben es schon öfter erlebt, dass Modelle, die in der Promotionsphase und der internen Testphase beeindruckend waren, nach der offiziellen Veröffentlichung enttäuschen.

Natürlich bedeutet dies auch die Möglichkeit, dass die KI - Fähigkeiten in den großen Modellunternehmen viel stärker sind als wir sehen können, aber aufgrund der begrenzten Rechenleistung nicht verbreitet werden können. Aber dieses Beispiel zeigt symbolisch, dass das Text - zu - Bild - Modell wieder einmal seine Grenzen überschritten hat.

Übrigens, was denkt ihr, wie Nano Banana Pro, der alte Rival von GPT Images 2, diese Aufgabe lösen würde?

Lacht nicht! GPT Image 2 könnte auch so etwas machen.

Als nächstes betrachten wir einige praktische Testdimensionen, wie die Dichte des Textrenderings. Dies ist möglicherweise die praktischste Fähigkeit dieser Modellversion und kann in Plakaten, Produktbildern und populärwissenschaftlichen Bildern sehr nützlich sein.

Der Test ist einfach: Wir wollen herausfinden, wie viele Wörter GPT Image 2 maximal in ein Bild packen kann.

Wir nehmen das Original von "Journey to the West" als Beispiel und geben dem Modell schrittweise mehr Wörter aus dem ersten Kapitel, um zu sehen, wie es funktioniert.

Zuerst von Anfang bis zur Geburt von Sun Wukong, etwa 1300 Wörter.

Das Ergebnis ist wie folgt: Man kann kaum ein falsches oder fehlerhaftes Wort sehen. Selbst die in den Prompt - Wörtern enthaltenen Pinyin - Anmerkungen wurden hinzugefügt.

Als nächstes fügen wir mehr Text hinzu, von Anfang bis Sun Wukong wird der schöne Monkey - König, etwa 2800 Wörter. Diesmal hat das Modell Schwierigkeiten. Nicht nur fehlt ein Teil des Textes am Ende, sondern auch die Schrift am Ende sieht ungeordnet und überfüllt aus.

Wir fügen noch mehr Text hinzu, von Anfang bis Sun Wukong geht allein auf die Suche nach der Unsterblichkeit und trifft auf einen alten Holzfäller, etwa 5600 Wörter. Diesmal hat das Modell es einfach geschafft und hat nur etwa 1500 Wörter gerendert.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

So fein, dass man auf einem Reiskorn schreiben kann. OpenAI lässt das Vertrauen in alle Screenshots auf Null sinken.

01