Die ChatGPT Images 2.0 wurden sensationell vorgestellt und übertreffen die Google Nano Banana. Das Design ist wirklich am Ende.
Um 3 Uhr morgens Pekinger Zeit startete die Live-Übertragung pünktlich, und OpenAI hat ChatGPT Images 2.0 vorgestellt.
Laut der Ankündigung ist „ChatGPT Images 2.0 die nächste Evolution: ein hochmodernes Modell, das komplexe visuelle Aufgaben bewältigen und präzise, direkt einsetzbare visuelle Inhalte generieren kann.“
Offenbar aus diesem Grund bietet der offizielle Blogbeitrag von OpenAI auch zwei Versionen (Bildmodus und klassischer Modus) an. Der Inhalt im Bildmodus wurde vollständig von diesem Modell generiert!
Blog-Adresse: https://openai.com/index/introducing-chatgpt-images-2-0/
In dem Blogbeitrag hat OpenAI erklärt: „Bilder sind eine Sprache, kein Dekor. Gute Bilder werden wie gute Sätze ausgewählt, organisiert und präsentiert. Sie können Mechanismen erklären, Stimmung schaffen, Ideen bestätigen oder Argumente aufbauen.“
Das ChatGPT Images 2.0-Modell hat einen qualitativen Sprung bei der genauen Befolgung von Anweisungen erreicht. Es kann Objekte genau platzieren und verknüpfen, hochdichte Texte rendern und unterstützt die Generierung in verschiedenen Seitenverhältnissen. Seine Fähigkeiten in Sachen Komposition und visueller Ästhetik sorgen dafür, dass die Ausgabe nicht mehr wie „künstlich generiert“ wirkt, sondern eher wie „bewusst gestaltet“.
Darüber hinaus zeigt es sich auch in multilingualen Umgebungen präzise und kann mit erweitertem visuellen und weltlichen Wissen Details ergänzen, um so mit weniger Hinweisen intelligenteres Bildmaterial zu generieren.
Um den komplexesten Aufgaben gerecht zu werden, führt Images 2.0 erstmals die „Denkfähigkeit“ ein. Wenn Sie im ChatGPT das thinking- oder pro-Modell auswählen, kann Images 2.0 online auf aktuelle Informationen zugreifen, aus einem Hinweis mehrere verschiedene Bilder generieren und seine eigene Ausgabe überprüfen. Dank der „Denkfähigkeit“ kann das Modell mehr Arbeit zwischen Idee und Bild übernehmen, insbesondere wenn Genauigkeit, Aktualität, Konsistenz und visuelle Einheitlichkeit von entscheidender Bedeutung sind.
In Kombination mit der Intelligenz des OpenAI-Inferenzmodells und dem tiefen Verständnis der visuellen Welt hebt dieses Modell die Bildgenerierung von „Rendering“ auf „strategisches Design“ und entwickelt es von einem Werkzeug zu einem visuellen System, das Menschen hilft, Ideen in verständliche, teilebare, lehrbare und bauwürdige Ergebnisse umzuwandeln.
Diese Funktion ist ab heute für alle ChatGPT-, Codex- und API-Benutzer verfügbar.
Höhere Genauigkeit und Kontrolle
Images 2.0 bringt der Bildgestaltung eine bisher nie dagewesene Spezifität und Wiedergabetreue. Es kann nicht nur komplexere Bilder entwerfen, sondern auch effektiv umsetzen. Es kann streng Anweisungen befolgen, wichtige Details beibehalten und feine Elemente rendern, die von früheren Modellen leicht verzerrt wurden: kleine Texte, Symbole, UI-Elemente, hochdichte Kompositionen und feine Stilbeschränkungen. Im API wird eine maximale Auflösung von 2K unterstützt. Die Ergebnisse sind nicht mehr „ungefähr richtig“, sondern „direkt einsetzbar“.
Achten Sie mal: Das folgende Screenshot wurde insgesamt von Images 2.0 generiert!
Stärkere Mehrsprachigkeit
Bisher waren Bildgenerierungsmodelle in englischen und lateinischen Sprachen stabiler, aber in anderen Sprachen, insbesondere bei komplexen oder dicht gedruckten Texten, weniger präzise.
Images 2.0 hat diese Einschränkung überwunden und sich in der mehrsprachigen Verständnisfähigkeit deutlich verbessert, insbesondere bei der Textwiedergabe in Japanisch, Koreanisch, Chinesisch, Hindi und Bengali. Es kann nicht nur korrekt nicht-englische Texte generieren, sondern auch eine natürliche und flüssige Sprachausdrucksweise gewährleisten.
Dies bedeutet nicht nur die Übersetzung von Labels, sondern macht die Sprache selbst zum Teil des Designs. Von Plakaten und Erklärungsbildern bis hin zu Diagrammen und Comics kann die visuelle und sprachliche Einheit erreicht werden. Dadurch ist das Modell weltweit besser einsetzbar und ermöglicht es Benutzern, visuelle Inhalte in ihrer tatsächlichen Sprachumgebung zu erstellen.
Bei der Live-Übertragung hat Chen Boyuan, Mitglied des OpenAI-Bildforschungsteams, ein Beispiel gezeigt. Er gab den Hinweis: „Make a artisitic marketing poster for a fictional OpenAI bakery. The poster should be in Japanese language.“
Das generierte Plakat entsprach vollständig dem Hinweis und war auch in den Details präzise.
„Es ist sehr gut darin, sehr detaillierte Anweisungen zu befolgen. Wenn Sie also sehr spezifische Markensprache, Designästhetik – all die Dinge, die für kreative Arbeit von entscheidender Bedeutung sind – haben, können Sie ChatGPT verwenden, um Ihre Ideen zu entwickeln und zu verfeinern und so das gewünschte Ergebnis zu erzielen.“ sagte Chen Boyuan.
Reifere Stilausdrucksweise und Realismus
Images 2.0 hat eine deutlich verbesserte Wiedergabetreue in verschiedenen visuellen Stilen. Es ist besser darin, die Schlüsselmerkmale von Fotos zu erfassen, einschließlich der kleinen Unvollkommenheiten, die den Realismus erhöhen. Gleichzeitig kann es auch stabile Darstellungen von filmischen Bildern, Pixelkunst, Comics und anderen visuellen Sprachen liefern und ist in Bezug auf Textur, Licht und Schatten, Komposition und Details konsistenter.
Daher entspricht die Ausgabe des Modells eher dem angegebenen Stil als einer ungefähren Nachahmung. Dies ist besonders für die Prototypentwicklung von Spielen, die Storyboarderstellung, kreative Marketingarbeiten und die Erstellung von Assets für bestimmte Medien oder Genres von Wert.
Flexibles Seitenverhältnis
Das neue Modell ist flexibler in der Ausgabeform und unterstützt verschiedene Seitenverhältnisse von 3:1 bis 1:3, die direkt auf Banners, Präsentationen, Plakate, Mobilgeräteoberflächen, Lesezeichen und Soziale-Media-Grafiken angepasst werden können. Sie können das Seitenverhältnis in Ihrem Hinweis angeben oder vorhandene Bilder über voreingestellte Optionen in neue Größen neu generieren.
Im Folgenden werden zwei Beispiele für unkonventionelle Seitenverhältnisse gezeigt:
Stärkeres Verständnis der realen Welt
Images 2.0 integriert das Wissen bis Dezember 2025 und verbessert so die Relevanz und Kontextgenauigkeit der Generierungsergebnisse. Dies ist besonders wichtig für Erklärungsbilder, Bildmaterial für die Bildung und visuelle Zusammenfassungen, da in diesen Fällen Genauigkeit und Klarheit genauso wichtig sind wie die Ästhetik.
Seine Intelligenz zeigt sich auch bei der end-to-end-Aufgabenbearbeitung: Es integriert Informationen, schreibt Inhalte und gestaltet diese mit einer klaren Struktur, angemessenen Leerräumen und gutem visuellen Fluss.
Visueller Denkpartner
Nach der Aktivierung des thinking-Modells in ChatGPT führt das System im Hintergrund eine tiefere Analyse und Ausführung durch. Es kann online Informationen suchen, hochgeladene Materialien in klare visuelle Erklärungen umwandeln und die Bildstruktur vor der Generierung analysieren.
In diesem Modus verhält sich Images 2.0 eher wie ein visueller Denkpartner und hilft Ihnen, erste Konzepte zu vollständigen Produkten zu entwickeln, wodurch die Arbeitsbelastung erheblich reduziert wird.
Es unterstützt auch die gleichzeitige Generierung mehrerer verschiedener Bilder, was in der ChatGPT-Bildgenerierung bisher noch nicht möglich war. Dies macht Workflows wie mehrseitige Comics, ganze Wohnungsentwürfe, Serienplakate oder multilinguale und mehrformatige Soziale-Media-Materialien effizient und durchführbar.
Sie müssen nicht mehr Bilder nacheinander generieren und manuell zusammenfügen. Mit einer einzigen Anfrage können Sie bis zu acht Bilder erhalten, die in Bezug auf Charaktere und Elemente konsistent und kontinuierlich sind.
Verwendung der Bildgenerierung in Codex
Die Images-Funktion wurde in Codex integriert, sodass die visuelle Gestaltung, Iteration und Abgabe in einem Arbeitsraum erfolgen können. Dies erweitert ihre Anwendungen in den Bereichen Design, Marketing, Produktentwicklung, Vertrieb und Lernen.
Beispielsweise können Sie schnell verschiedene UI-Richtungen und Prototypen generieren, die Vorschläge vergleichen und das beste Design direkt in ein Produkt oder eine Webseite umsetzen, ohne Codex zu verlassen. Sie können dies über ein ChatGPT-Abonnement nutzen, ohne zusätzlichen API-Schlüssel.
Einschluss der Bildfähigkeiten in Produkte über die API
Entwickler und Unternehmen können diese Fähigkeiten über die gpt-image-2-API in ihre eigenen Produkte integrieren und so die Fähigkeit zur hochwertigen Bildgenerierung und -bearbeitung in ihren bestehenden Workflows hinzufügen.
Dank der stärkeren Textwiedergabe, mehrsprachigen Generierung, Anweisungsbefolgung und der Unterstützung von mehr Ausgabeformaten und Seitenverhältnissen ist die API einfacher für die Erstellung von Bildworkflows in realen Geschäftsszenarien, wie z. B. lokalisierte Anzeigen, Infografiken, Erklärungsbilder, Bildungsmaterial, Designwerkzeuge, kreative Plattformen und Webseiten-Generierungsprodukte.
Einschränkungen
OpenAI hat auch in seinem Blog die Einschränkungen dieses Modells erwähnt: Obwohl Images 2.0 ein wichtiger Schritt vorwärts ist, ist es immer noch nicht perfekt. Bei Aufgaben, die eine vollständige Modellierung der physischen Welt erfordern (z. B. Origami-Tutorials, komplexe Strukturen wie Rubik's Würfel) und bei der genauen Wiedergabe von verborgenen, geneigten oder rückwärtigen Oberflächen kann das Modell möglicherweise nicht optimal funktionieren.
Sehr hochdichte oder wiederholende Details (z. B. feiner Sand) können ebenfalls eine Herausforderung darstellen. Bei Labels und Diagrammen, die genaue Pfeile oder Bauteilbeschriftungen enthalten, wird immer noch eine manuelle Korrektur empfohlen.
Diese sind wichtige Verbesserungsbereiche für die Zukunft.