StartseiteArtikel

Retten Sie die Photoshop-Desperaten! Alibaba hat das multimodale Modell Qwen-VLo neu eingeführt! Jeder kann es kostenlos ausprobieren.

量子位2025-06-28 14:18
Hier folgt direkt meine persönliche praktische Testbericht.

Sobald man es ausprobiert, lassen die Internetnutzer direkt den Kommentar fallen, dass seine „Fähigkeit zur Generierung von Bildern aus Text“ stärker sei als die von GPT-4o?!

Gerade letzte Nacht hat Alibaba mit dem brandneuen multimodalen Modell Qwen-VLo eine Sensation gemacht.

Laut Angaben wurde Qwen-VLo auf der bestehenden multimodalen Verarbeitungs- und Generierungsfähigkeit von Alibaba umfassend verbessert und verfügt über drei Highlights:

Es besitzt eine verbesserte Fähigkeit zur Erfassung von Details und kann während des gesamten Generierungsprozesses eine hohe semantische Konsistenz aufrechterhalten;

Mit einem einzigen Befehl kann es Bilder bearbeiten, einschließlich Stiländerungen, Hinzufügen oder Entfernen von Elementen, Hinzufügen von Text usw.;

Es unterstützt mehrere Sprachen wie Chinesisch und Englisch, was die Nutzung für globale Nutzer erleichtert.

Außerdem unterstützt Qwen-VLo sowohl am Eingabe- als auch am Ausgabeende beliebige Auflösungen und Seitenverhältnisse und ist nicht an feste Formate gebunden.

Zusätzlich zu den Funktionen, die bereits GPT-4o bietet (wie kontinuierliche Generierung, Ghibli-Stil, Hinzufügen von Text), unterstützt es in den offiziell veröffentlichten Demos auch einige kreative Ideen.

Bezüglich der ersten Funktionen braucht man nicht viel zu sagen. Es kann jetzt auch Bilder generieren, die genau den Vorgaben entsprechen, ähnlich wie eine Fernsehserie:

Was die zweiten Ideen angeht, können wir beispielsweise Qwen-VLo auffordern, ein Bild von „Badeprodukten in einem Einkaufskorb“ zu generieren, ähnlich wie wenn man in einem Supermarkt für die täglichen Bedürfnisse einkauft.

Und tatsächlich, plötzlich war die Aufgabe erledigt (⊙ˍ⊙):

Es gibt zwar einige kleine Unzulänglichkeiten, aber ehrlich gesagt, ist seine „Verständnis“-Fähigkeit tatsächlich stärker als zuvor.

Die offizielle Beschreibung besagt, dass diese Verständnisfähigkeit nicht nur bei der Bildgenerierung sichtbar ist, sondern auch bei der Erkennung und Erklärung von Bildern.

Beispielsweise kann man es nach der Generierung eines Bildes auffordern, die Rassen der Katzen und Hunde im Bild zu beschreiben (korrekt erkannt als Tigerkatze und Beagle):

Im Unterschied zu früheren Modellen kann Qwen-VLo auch vorhandene Informationen annotieren (z. B. durch Detektion und Segmentierung).

Im folgenden Bild hat es erfolgreich die Kanten einer Banane mit einer roten Maske segmentiert.

Derzeit kann jeder das Modell kostenlos testen (derzeit in der Vorschauversion). Bitte beachten Sie Qwen3 - 235B - A22B und geben Sie einfach Ihre Anforderungen in das Eingabefeld auf der Startseite ein.

Ohne weitere Worte, lassen Sie uns sofort eine praktische Testrunde starten.

Qwen-VLo, wie gut bist du eigentlich im Bearbeiten?

Basierend auf den von Qwen genannten Highlights, nämlich der „starken Erfassung von Details“ und der „einfachen Bildbearbeitung mit einem Satz“, haben wir in unseren Tests insbesondere die verschiedenen Bearbeitungsfähigkeiten von Qwen-VLo untersucht.

Das ist wirklich sehr attraktiv!

Einerseits erfordert fast alle Modelle zur Bildgenerierung eine Art Zufallsauswahl, und das Ergebnis der ersten Generierung ist nicht immer völlig zufriedenstellend. Deshalb ist die Fähigkeit zur zweiten oder mehrfachen Bearbeitung sehr wichtig.

Andererseits erspart eine starke Bearbeitungsfähigkeit den Leuten, die keine guten Fähigkeiten im Bildbearbeiten haben, viel Arbeit…

Lasst uns mit einem kleinen Vorgeschmack beginnen!

Im ersten Test lassen wir es zunächst ein Foto von einem Polarbären, der Cola trinkt, generieren.

Dieser Test zielt auf einen ungewöhnlichen, nicht-realen Stil.

Basierend auf diesem Bild lassen wir es dann über einen Dialog die Cola durch Milch ersetzen.

Erfolgreich! Qwen-VLo hat tatsächlich die Ersetzung vorgenommen.

Außerdem wurde der Hintergrund und der Polarbär selbst fast nicht verändert.

Wenn man aber genau hinsieht, kann man bemerken, dass die Augen und das Fell des Polarbären in den beiden Bildern etwas unterschiedlich aussehen.

Im zweiten Test lassen wir es zunächst ein Foto eines Vogels generieren.

Dieser Test zielt auf einen realistischen Fotostil.

Dann, ohne in die Hogwarts - Schule gehen zu müssen, können Sie mit dem Befehl „Ersetze den Vogel im Bild durch eine Taube“ eine Magie auslösen:

Aber als wir versuchten, einen neuen Netz-Slang „Knoblauchvogel“ (eine Wortspiel in chinesischer Internetkultur) zu verwenden, hat Qwen-VLo das nicht verstanden.

(Hinweis: „Knoblauchvogel“ ist ein neues Netz-Slang. Ein Satz aus einem Kurzvideo in der Wuhan - Mundart „Lass es gut sein, alle haben es schwer“ wird von den Nutzern als „Lass es Vogel“ (eine Wortspiel) abgekürzt und später zu „Knoblauchvogel“ verändert.)

Trotzdem hat Qwen-VLo versucht, die Bearbeitungsaufgabe zu erfüllen.

Wie Sie im folgenden Bild sehen können, hat Qwen-VLo auf der Grundlage der anderen Elemente im Bild die Taube durch einen anderen Vogel ersetzt.

Das kann man auch als Vogelersetzung bezeichnen?

Im dritten Test haben wir eine Aufgabe mit mehreren Schritten durchgeführt, um die Fähigkeit von Qwen-VLo, die Welt zu „beschreiben“, umfassend zu testen und insbesondere seine Fähigkeit zur Textbearbeitung in Bildern zu untersuchen.

Der Prozess lautet: „Lassen Sie Qwen-VLo ein Skizzenbild generieren - färben Sie es ein - fügen Sie Text hinzu - bearbeiten Sie die chinesischen Zeichen“.

Um die Veränderungen in jedem Schritt zu verstehen, betrachten wir nacheinander die vier Bilder, die während des Prozesses aufgenommen wurden:

Obwohl die Gesichtszüge des Jungen im Bild sich ändern, bleibt der Hauptcharakter stabil und der Hintergrund unverändert. Insgesamt hat es die Aufgabe der Bearbeitung von chinesischen Zeichen gut erledigt.

Abschließend eine Zusatzaufgabe, die Bearbeitung von Englisch -

Die Textbearbeitung ist korrekt, die Positionen der mehreren Hauptcharaktere sind unverändert und der Hintergrund bleibt gleich. Insgesamt stimmt alles.

Aber wie Sie sehen können, sieht der Junge jetzt eher wie aus einem amerikanischen Comic aus (lacht).)

Obwohl auch schrittweise dargestellt, hat Qwen-VLo hinter den Kulissen wirklich etwas zu bieten

Hier möchten wir etwas ergänzen, was Sie beim Testen des Modells sicherlich bemerken werden.

Der Prozess der Bildgenerierung von Qwen-VLo sieht so aus -

Empfinden Sie nicht eine gewisse Vertrautheit?

Ja, auch GPT-4o generiert Bilder blockweise von oben nach unten: Zunächst wird ein unscharfes Umrissbild angezeigt, und dann werden sukzessive die Details hinzugefügt.

Jedoch haben Forscher der Hongkonger Universität für Wissenschaft und Technologie festgestellt, dass das von den Nutzern wahrgen