Das mächtige Foto-Edit-Tool, das ausländische Content-Creator dazu bringt, "King Bomb" zu rufen, ist hier!
„Photoshop ist tot“ ist zu einem der heißesten Themen in der Community der Künstlichen-Intelligenz-Künstler geworden.
Mit dem erneuten Aufschwung von Bildbearbeitungs- und -generierungsmodellen wird die langjährige Thronstellung dieses professionellen Kreativsoftwarepakets wie nie zuvor in Frage gestellt.
Insbesondere Google's Nano Banana, ByteDance's Seedream4.0 und Alibaba's Qwen-Image-Edit-2509, die die aktuelle Welle der Technologieupgrades in der multimodalen Bildgenerierung anführten, bieten neue Fähigkeiten und Einsatzmöglichkeiten, wie z. B. Outfit-Vorschläge (OOTD), Textrendering und die Generierung von Drehbuchstrukturen für Filme. Ohne tiefgreifende Kenntnisse in der Bildbearbeitung können Künstler sich nun mehr darauf konzentrieren, wie sie die Ergebnisse der Bildgenerierung kontrollierbarer, kreativer und produktionsreifer gestalten können.
Technisch gesehen kombinieren Modelle wie Nano Banana verschiedene Fähigkeiten wie Sprachverständnis, visuelle Erkennung und Generierungskontrolle über multimodale Befehle, um ein natürlicheres Schaffenserlebnis zu ermöglichen. Doch mit der zunehmenden Vielfalt der Anwendungsfälle werden auch einige Grenzen dieser befehlsgesteuerten Bearbeitungs- und Generierungsmethoden sichtbar.
Zum Beispiel können Sprachbefehle in der Bearbeitung manchmal unpräzise sein und erfordern zusätzliche Referenzbilder und Texterklärungen. Bei der Generierung funktionieren die Modelle gut für konkrete Objekte, scheitern aber oft bei abstrakten Konzepten wie Frisuren, Make-up, Texturen, Beleuchtung und Stilen. Diese Probleme erfordern bessere technische Lösungen.
Vor zwei Wochen hat das Team von Jia Jiaya, einem Gastprofessor an der Hong Kong University of Science and Technology und dem Direktor des von Neumann Instituts, ihr neuester Ergebnis, DreamOmni2, als Open-Source-Projekt veröffentlicht. Das System wurde speziell für die Schwächen in der multimodalen Befehlsbearbeitung und -generierung optimiert. Basierend auf dem FLUX-Kontext-Training behält es die bestehenden Fähigkeiten der Befehlsbearbeitung und Text-zu-Bild-Generierung bei und erweitert diese um die Fähigkeit, Bilder unter Verwendung mehrerer Referenzbilder zu bearbeiten und zu generieren, was den Künstlern mehr Flexibilität und Spaß bietet.
Laut dem Team kann DreamOmni2 bei der Bearbeitung und Generierung sowohl von konkreten Objekten als auch von abstrakten Konzepten deutlich bessere Ergebnisse erzielen als die derzeitigen Open-Source-Modelle. In einigen Aspekten ist es sogar besser als Nano Banana. Hier einige Beispiele:
Multimodale Befehlsbearbeitung: Das Mütze der Frau auf dem ersten Bild (Quellbild) soll die gleiche Farbpalette wie den Pullover auf dem zweiten Bild (Referenzbild) haben.
Bildgenerierung basierend auf Befehlen: Bild 1 wird an die Wand des Schlafzimmers gehängt. Die Tasse auf Bild 3 bekommt die gleiche Materialtextur wie die Platte auf Bild 2 und wird auf den Tisch gelegt.
DreamOmni2 hat die Aufmerksamkeit von Künstlern aus aller Welt erregt. Einige haben es hoch gelobt und behauptet, dass es das Verständnis von Bildgenerierung und -bearbeitung revolutionieren wird. Andere haben es mit dem Titel „King Bomb“ betitelt und insbesondere seine Fähigkeit, abstrakte Konzepte zu verstehen, gelobt. Auf YouTube gibt es auch viele Videos, die das Modell vorstellen und Erfahrungsberichte teilen.
Seit der Open-Source-Veröffentlichung vor zwei Wochen hat DreamOmni2 in der Open-Source-Community viel Anerkennung erhalten und auf GitHub bereits 1.6k Sterne erreicht.
Codeadresse: https://github.com/dvlab-research/DreamOmni2
Wenn Nano Banana eine neue Ära der multimodalen KI-basierten Bildbearbeitung und -generierung eingeleitet hat, dann trägt DreamOmni2 dazu bei, diese Fähigkeiten noch weiter zu entwickeln und Künstlern einen intelligenten Motor mit besserem semantischem Verständnis und kreativerer Ausdehnungsmöglichkeit anzubieten.
Im Folgenden haben wir DreamOmni2 selbst getestet. Hier die Ergebnisse:
Eigenes Testen: Wo liegt die Stärke?
Wir haben zunächst die multimodale Befehlsbearbeitungsfähigkeit von DreamOmni2 getestet.
Testadresse: https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
Für diese Aufgabe haben wir dem Modell zwei Bilder und einen Hinweis gegeben: „Ersetze den Hintergrund des Pandas auf Bild 1 mit Bild 2 und generiere ein Personalausweisbild (Replace the background of the panda in picture 1 with picture 2 to generate an ID photo).“
Nach kurzer Zeit hatte DreamOmni2 ein Personalausweisbild des Pandas erstellt. Der Hintergrund entspricht den Anforderungen, und die Haarstruktur des Pandas wurde perfekt beibehalten. Früher hätte es mehrere Minuten gedauert, ein solches Bild manuell zu bearbeiten. Jetzt kann DreamOmni2 es mit einem einfachen Befehl automatisch erledigen, und das Ergebnis ist so gut wie bei professioneller Bildbearbeitung.
Es scheint also, dass DreamOmni2 solche Hintergrundersetzungen problemlos bewältigen kann. Deshalb haben wir die Schwierigkeit erhöht und versucht, das Stil eines Bildes in einen anderen Stil zu ändern. Solche Aufgaben stellen höhere Anforderungen an das Verständnis und die Generierungskontrolle des Modells, da es nicht nur den Inhalt des Bildes erkennen, sondern auch die semantischen Merkmale des Stils wie Farbgebung und Maltechnik verstehen muss.
Wir haben wieder zwei Bilder und einen Hinweis eingegeben: „Mache das erste Bild so, dass es den gleichen Stil wie das zweite Bild hat (Make the first image have the same image style as the second image).“
DreamOmni2 hat auch hier überraschend gute Ergebnisse gezeigt. Es hat sowohl die Farbgebung als auch die Atmosphäre des Referenzbildes genau wiedergegeben und den Stil nahtlos in das Originalbild integriert.
Da DreamOmni2 so gute Ergebnisse liefert, stellt sich die Frage, wie es im Vergleich zu anderen gängigen Bildgenerierungsmodellen wie GPT-4o und Nano Banana abschneidet. Vor allem ist DreamOmni2 Open-Source, was es in der multimodalen Bildgenerierung besonders macht.
Wir haben zwei Bilder eingegeben und den Hinweis gegeben: „Ersetze die Jacke auf dem ersten Bild mit den Kleidern auf dem zweiten Bild (Replace the jacket in the first image with the clothes in the second image).“
DreamOmni2 hat die Hierarchie zwischen dem Subjekt und den Kleidern richtig erkannt. Es hat die Kleidung erfolgreich ersetzt und die Gesichtsmerkmale und Haltung des Menschen natürlich beibehalten, nur der Kragen weicht etwas ab.
Wir haben das gleiche Bild und den gleichen Hinweis an GPT-4o gegeben. Das Ergebnis von GPT-4o sieht deutlich künstlich aus, besonders das Gesicht des Menschen wirkt unnatürlich, als wäre es übermäßig geglättet. Außerdem wurde die Haltung des Menschen verändert, und das Gesamtbild erscheint unproportional.
Bei Google's Nano Banana blieb die Haltung und die Gesichtsmerkmale des Menschen erhalten, und das Gesamtbild nach der Kleiderersetzung wirkt natürlich. Doch die Farbe und Form der Kleidung haben sich geändert, und das Logo ist verschwunden.
Im Vergleich haben wir festgestellt, dass GPT-4o die schlechtesten Ergebnisse liefert, während DreamOmni2 und Nano Banana deutlich besser abschneiden.
Als nächstes haben wir die multimodale Generierungsfähigkeit von DreamOmni2 getestet.