StartseiteArtikel

Hat Google den Thron verloren? Das Team von Jia Jiaya der Hong Kong University of Science and Technology hat DreamOmni2 open source gemacht, und seine überragende Bildbearbeitung schlägt Nano Banana.

新智元2025-10-24 09:48
DreamOmni2 bricht die Engpässe bei der multimodalen KI-Bearbeitung und ermöglicht die Generierung abstrakter Konzepte.

Sie werden niemals die Pinselstriche von Vincent van Gogh oder die Lichtspiele von Wong Kar-wai genau beschreiben können. Die Zukunft der KI-Kreativität besteht darin, dass die KI direkt Ihre Inspiration "versteht", anstatt Ihre Anweisungen zu erraten.

Die KI-Bildmodelle gehen am Rasen!

Zu Beginn des Jahres löste GPT-4o eine "Studio Ghibli"-Welle aus.

In letzter Zeit hat die ganze Welt sich mit den 3D-Figuren, die von Nano Banana generiert wurden, richtig in den Wahnsinn getrieben.

Trotzdem: Haben Sie vielleicht bemerkt, dass es einen "genialen Punkt" gibt?

Die meisten dieser einheitlichen Generierungs- und Bearbeitungsvorgänge drehen sich um die Kombination von Befehlsbearbeitung und der Generierung von konkreten Konzepten. Wenn man sie als intelligentes kreatives Werkzeug nutzen möchte, fehlt ihnen noch eine Menge.

  • Wenn Sprache kraftlos wird.

Stellen Sie sich vor, Sie möchten die Tasche eines Charakters auf einem Foto gegen das Muster eines Kleides auf einem anderen Foto austauschen. Wie würden Sie dann in Worten genau jenes komplizierte und unregelmäßige bohemianische Muster an die KI beschreiben?

Die Antwort ist: Fast unmöglich.

  • Wenn die Inspiration kein konkretes Objekt ist.

Was ist, wenn Sie nicht auf ein Objekt, sondern auf ein abstraktes "Gefühl" zurückgreifen möchten -

Zum Beispiel das einzigartige "retro-filmische Lichtspiel" eines alten Fotos oder den "Pinselstil" eines bestimmten Malers. Dann sind die Modelle, die nur gut darin sind, ein konkretes "Objekt" zu extrahieren und zu kopieren, machtlos.

Wie schön wäre es, wenn die KI sowohl menschliche Sprache verstehen als auch diese abstrakten Stile genau erfassen könnte!

In letzter Zeit wurde diese Engstelle von einem KI-Forschungsteam unter der Leitung von Jia Jiaya der Hong Kong University of Science and Technology durchbrochen. Innerhalb von zwei Wochen sammelte das Projekt auf Github 1.600 Sterne und wurde von vielen ausländischen Künstlern auf YouTube und in Foren geteilt, was zu vielen Diskussionen führte.

In einer Studie mit dem Titel "DreamOmni2: Multimodal Instruction-based Editing and Generation" hat die KI die Fähigkeit erworben, "abstrakte Konzepte" multimodal zu bearbeiten und zu generieren.

·Link zur Studie:

https://arxiv.org/html/2510.06679v1

·Projekt-Website:

https://pbihao.github.io/projects/DreamOmni2/index.html

·Code-Repository:

https://github.com/dvlab-research/DreamOmni2

Basierend auf dem leistungsstarken FLUX Kontext-Modell wurde DreamOmni2 zusätzlich zur hervorragenden Fähigkeit, Bilder aus Texten zu generieren und Anweisungen zu bearbeiten, mit der neuen Fähigkeit versehen, mehrere Referenzbilder zu verarbeiten, was es zu einem noch intelligenteren kreativen Werkzeug macht.

Es schneidet nicht nur bei herkömmlichen Aufgaben deutlich besser ab als die bestehenden Open-Source-Modelle, sondern zeigt auch bei der Verarbeitung neuer abstrakter Konzepte eine Stärke, die die des stärksten Google-Nano Banana-Modells übertrifft.

Open-Source-Version von Nano Banana, aber stärker

Genug geredet, jetzt kommen die Tests.

Zuerst ein Klassiker: Geben Sie ein Produkt ein und lassen Sie einen Charakter es "werben".

Prompt:

The character from the first image is holding the item from the second picture.

Lassen Sie den Charakter aus Bild 1 das Objekt aus Bild 2 halten.

Das Gesichtsausdruck, die Haare, die Details an den Fingern und die Textur des Kleidungsstücks - alles ist perfekt, nicht wahr?

Außerdem wurde das Produkt gut in das Bild integriert.

Als nächstes testen wir das Ergebnis in der "realen Welt" - lassen Sie das Modell den Mann in Bild 1 durch die Frau in Bild 2 ersetzen.

Das Ergebnis ist da!

Man kann sehen, dass im generierten Bild der Hintergrund mit Bergen und das cybernetische Lichtspiel fast perfekt übernommen wurden, und die Texte vor dem Charakter wurden überhaupt nicht beeinflusst.

Beim Charakter selbst stimmen Kleidung und Frisur fast genau mit Bild 2 überein, und das Licht auf dem Gesicht imitiert das von Bild 1.

Das ist wirklich beeindruckend.

Was das Lichtspiel betrifft, erhöhen wir die Schwierigkeit und lassen das Modell das rot-blaues Lichtspiel aus Bild 2 auf Bild 1 übertragen.

Prompt:

Make the first image has the same light condition as the second image.

Lassen Sie das Lichtspiel in Bild 1 mit dem von Bild 2 übereinstimmen.

Überraschenderweise behielt DreamOmni2 nicht nur das ursprüngliche gitterartige Lichtspiel in Bild 1 bei, sondern das rot-blaues Kontrastverhältnis nach der Fusion ist auch sehr stark.

Im Vergleich dazu übertragte GPT-4o (links im unteren Bild) nur die Farbtönung, und das Lichtspiel wurde nicht beibehalten. Nano Banana (rechts im unteren Bild) hat nur ein wenig die Farbe geändert, aber nicht viel.

Das Übertragen von Stilen ist auch kein Problem.

Prompt:

Replace the first image have the same image style as the second image.

Verarbeiten Sie Bild 1 so, dass es den gleichen Stil wie Bild 2 hat.

Das pixelartige Hähnchen - erledigt.

Das Anime-Mädchen - erledigt. (So schön!)

Muster und Texte sind auch kein Problem.

Prompt:

On the cup, "Story" is displayed in the same font style as the reference image.

Zeigen Sie auf der Tasse das Wort "Story" in der gleichen Schriftart wie im Referenzbild an.

Darüber hinaus ist DreamOmni2 auch sehr gut darin, Bewegungen zu imitieren.

Prompt:

Make the person from the first image has the same pose as person from the second image.

Lassen Sie die Person in Bild 1 die Pose der Person in Bild 2 imitieren.

Im Ergebnis, das von DreamOmni2 generiert wurde, wurden die Bewegungen von Armen und Beinen fast perfekt aus Bild 2 übernommen.

Leider unterscheiden sich die Richtung des Charakters und die Details an den Händen ein wenig.

Trotzdem ist es im Vergleich zum Open-Source-Modell FLUX Kontext, das bei der semantischen Verständnis große Probleme hat, viel stärker.

Wie im folgenden Bild zu sehen ist, hat Kontext offenbar überhaupt nicht verstanden, was "erstes Bild", "zweites Bild" und die Anpassung der Pose bedeuten, und hat einfach Bild 2 kopiert.