HomeArticle

Das Bildgenerierungsmodell von Alibaba hat sich an der Spitze von HuggingFace platziert. Mit einem Satz wurde Elon Musk "älter" gemacht.

直面AI2025-08-20 16:31
Die PS für die neue Ära ist da. Kannst du sie benutzen?

Am 19. August hat Alibaba Qwen-Image vorgestellt, ein Basis-Modell für die Bildgenerierung. Dieses Modell zeichnet sich dadurch aus, dass es durch systematische Datenverarbeitung, fortschrittliche Lernstrategien, verbesserte multitasking-Trainingsansätze und skalierbare Architekturoptimierungen die zentralen Herausforderungen bei der genauen Textwiedergabe und präzisen Bildbearbeitung angeht.

Im Bereich der Künstlichen Intelligenz hat die Technologie zur Bildgenerierung in den letzten Jahren beachtliche Fortschritte gemacht. Ob es sich um die direkte Generierung von Bildern aus Text (T2I) oder die Bearbeitung bestehender Bilder (TI2I) handelt, liegt der Kern darin, ob Maschinen die menschlichen Absichten präzise verstehen und visuell wiedergeben können. Obwohl Architekturen wie Diffusionsmodelle die Auflösung und Detailscharfe der generierten Bilder erheblich verbessert haben, bleiben in diesem Bereich zwei anhaltende Herausforderungen bestehen.

Beim Text-zu-Bild-Generierungsprozess ist die Fähigkeit der Modelle, komplexe und mehrdimensionale Textanweisungen zu verstehen und abzugleichen, noch unzureichend. Insbesondere bei feinen Aufgaben wie der Wiedergabe mehrzeiliger Texte, der Darstellung von Nicht-alphabetischen Schriftzeichen (wie chinesischen Zeichen), dem Einfügen von Text an bestimmten Positionen und der nahtlosen Integration von Text und visuellen Elementen erreichen die bestehenden Modelle oft nicht die gewünschten Ergebnisse.

Beim Bildbearbeitungsprozess ist es eine doppelte Herausforderung, sicherzustellen, dass das bearbeitete Bild visuell und semantisch mit dem Originalbild übereinstimmt. Dies erfordert sowohl visuelle Konsistenz, d. h. nur die Zielbereiche werden verändert, ohne die visuellen Details anderer Teile zu beeinträchtigen, als auch semantische Kohärenz, d. h. bei strukturellen Anpassungen (z. B. Änderung der Körperhaltung einer Person) müssen die Identitätsmerkmale des Subjekts und die logische Einheit der Szene beibehalten werden.

01

Das Qwen-Team hat einen technischen Bericht namens „Qwen-Image Technical Report“ veröffentlicht, um die Funktionen von Qwen-Image ausführlich zu beschreiben.

Um eine präzise Textwiedergabe zu erreichen, hat Qwen-Image ein umfassendes Datenverarbeitungssystem aufgebaut. Dieses System beginnt mit der massiven Sammlung von Milliarden von Bild-Text-Daten, wobei Qualität über Quantität steht. Die Daten werden durch eine feingranulare Siebepipeline mit sieben Phasen geleitet, von der grundlegenden Filterung bei niedriger Auflösung bis zur ästhetischen Raffination bei hoher Auflösung, um die Datenqualität und die Übereinstimmung von Bild und Text systematisch zu verbessern.

Unter Berücksichtigung der langen Schwanzverteilung von chinesischen Zeichen und anderen Inhalten in realen Bildern synthetisiert das Modell außerdem mithilfe von drei Strategien („reine Wiedergabe“, „kombinierte Wiedergabe“ und „komplexe Wiedergabe“) eine große Menge an hochwertigen Textbilddaten, um die Mängel der natürlichen Daten auszugleichen. Auf dieser Grundlage wird das Modell mit einer von einfach nach komplexen „Curriculum Learning“-Strategie trainiert, was seine Fähigkeit zur Wiedergabe komplexer chinesischer und englischer Texte erheblich verbessert.

Um eine präzise Bildbearbeitung zu erreichen, hat Qwen-Image einen verbesserten Multitasking-Lernrahmen entwickelt. Der Kern besteht darin, das Eingabebild in zwei komplementäre Merkmale zu codieren: Einerseits die hochwertigen „semantischen Merkmale“, die von dem Qwen2.5-VL-Modell extrahiert werden, um den Bildinhalt und die Bearbeitungsanweisungen zu verstehen, und andererseits die niedrigwertigen „Wiederherstellungsmerkmale“, die von einem Variational Autoencoder (VAE) extrahiert werden, um die visuellen Details und Texturen des Bildes zu bewahren.

Diese beiden Merkmale werden gemeinsam als Leit-Signale in den Multimodal Diffusion Transformer (MMDiT), das Rückgrat des Modells, eingegeben. Dieses „Doppel-Codierungs“-Design ermöglicht es dem Modell, bei der Ausführung von Bearbeitungsanweisungen sowohl zu verstehen, „was zu ändern ist“, als auch zu wissen, „was beizubehalten ist“, und erreicht so ein gutes Gleichgewicht zwischen semantischer Kohärenz und visueller Treue.

Architektonisch besteht Qwen-Image aus drei Teilen: Qwen2.5-VL (Bedingungsencoder), VAE (Bildkompression und -dekodierung) und MMDiT (Kern-Generierungsnetzwerk). Der VAE verwendet eine einzigartige Architektur mit „einem Encoder und zwei Decodern“, die es ihm ermöglicht, hochwertige Bilder wiederherzustellen und zugleich die Grundlage für die zukünftige Erweiterung auf Videogenerierungsprojekte zu legen. Innerhalb des MMDiT wurde eine neue Positions-Codierungsmethode namens MSROPE eingeführt, die die Übereinstimmung von Text- und Bildmerkmalen verbessert, indem der Textinformation konzeptionell auf der Diagonalen des Bildgitters platziert wird.

Der Trainingsprozess ist ebenfalls fortschrittlich, von niedriger bis hoher Auflösung, von bildern ohne Text bis zu Bildern mit Text, und es werden verstärkte Lernmethoden wie supervised fine-tuning (SFT) und direct preference optimization (DPO) kombiniert, um die Qualität der Generierungsergebnisse und die Genauigkeit bei der Befolgung von Anweisungen kontinuierlich zu verbessern. Schließlich zeigen zahlreiche Benchmark-Tests und menschliche Bewertungen, dass Qwen-Image auf dem Gebiet der allgemeinen Bildgenerierung, der komplexen Textwiedergabe und der anweisungsbasierten Bildbearbeitung Spitzenleistungen erbringt.

Genug von den Worten, lassen Sie uns direkt die Ergebnisse betrachten. Ich habe Qwen-Image absichtlich herausgefordert. Da das offizielle technische Team im Bericht behauptet, dass das Verständnis von Prompt-Wörtern verbessert wurde, habe ich es gefordert, etwas zu generieren, das in der Natur nicht existiert. Die Ergebnisse zeigen, dass Qwen die Eiskberge besser wiedergibt als GPT-5, aber die Flammen und der Eiskberg scheinen getrennt voneinander zu sein, während GPT-5 den Raum zwischen Flammen und Eiskberg mit Lava füllt, was das Bild natürlicher erscheinen lässt.

Prompt: A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image:

GPT-5:

Beim Bildwiederherstellungsprozess hat GPT-5 fast alles an der Katze und im Hintergrund verändert. Vielleicht weil ich es aufgefordert habe, die Katze schweben zu lassen, hat GPT-5 die Katze sogar in die Atmosphäre geschickt, während Qwen-Image die Katze nur halbwegs schweben lässt.

Prompt: make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

Originalbild:

Qwen-Imgae:

GPT-5:

Hier kommt das Interessante: Da im Originalbild die US-Flagge zu sehen war, können weder GPT-5 noch Gemini das Originalbild bearbeiten. Qwen-Image hingegen hat den Befehl erfüllt, obwohl Elon Musk im generierten Bild älter aussieht.

Prompt: Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

Originalbild:

Qwen-Image:

02

Der technische Bericht zeigt die starken Fähigkeiten von Qwen-Image bei der Bildgenerierung und -bearbeitung. Dies führt natürlich zu der Frage: Kann es ein „AI-Photoshop“ werden? Oder inwiefern verändert es die Art und Weise, wie wir mit Bildern interagieren? Um diese Frage zu beantworten, müssen wir die Kernunterschiede und -übereinstimmungen zwischen Qwen-Image und herkömmlichen Bildbearbeitungssoftware vergleichen.

Funktionsmäßig zeigt Qwen-Image viele ähnliche Kernbearbeitungsfähigkeiten wie Photoshop, aber die Umsetzung ist völlig unterschiedlich. Photoshop basiert auf Werkzeugkasten, Ebenen und Filtern, und die Benutzer ändern das Bild durch direkte Manipulation (z. B. Malen mit der Pinseltools, Ziehen von Auswahlen). Qwen-Image hingegen basiert auf natürlicher Sprache, und die Benutzer bearbeiten das Bild durch „Beschreibung“.

Beim Objektbearbeitungsprozess verwendet Photoshop Werkzeuge wie das Lasso- und das Zauberstab-Werkzeug, um genaue Auswahlen zu treffen, und dann Kopieren, Einfügen oder Inhaltserkennungsfüllung durchzuführen. Qwen-Image erreicht ähnliche Ergebnisse durch Textanweisungen, z. B. „Füge eine Katze und einen Hund hinzu“ oder „Entferne alle Personen aus dem Bild“. Es kann nicht nur hinzufügen und entfernen, sondern auch Stilanforderungen verstehen (z. B. Hinzufügen von cartoonartigen Tieren), was ähnlich wie die manuelle Anpassung des Stils neuer Elemente in Photoshop ist, um sie an den Hintergrund anzupassen, aber Qwen-Image automatisiert diesen Prozess.

Beim Material- und Stilwandel bietet Photoshop Filterbibliotheken, Ebenenstile und Texturüberlagerungen. Qwen-Image kann ebenfalls durch Anweisungen ähnliche Ergebnisse erzielen, z. B. die Umwandlung eines normalen Icons in einen Kühlschrankaufsteller im Stil der „famille-rose Glaskunst“. Diese semantische Materialdarstellung ist einer seiner Stärken. Darüber hinaus entspricht seine präzise Textbearbeitungsfähigkeit, z. B. die Änderung, Hinzufügung oder Entfernung von Text im Bild unter Beibehaltung des ursprünglichen Stils, direkt der Kernfunktion von Photoshop – dem Textwerkzeug.

Darüber hinaus zeigt Qwen-Image bei der Bearbeitung von strukturellen Änderungen an Bildern wie der Anpassung der Körperhaltung einer Person ein Potenzial, das über herkömmliche Werkzeuge hinausgeht. In Photoshop erfordert die Anpassung der Körperhaltung möglicherweise die Verwendung von Werkzeugen wie Liquify und Puppet Warp für eine feine manuelle Anpassung, und es ist schwierig, eine natürliche Übergang von Kleidungstexturen und Hintergrund zu gewährleisten.

Qwen-Image kann jedoch Anweisungen wie „Lasse sie aufstehen und die Hand auf die Hüfte legen“ verstehen und unter Beibehaltung der Identität der Person, der Kleidungsdetails (und sogar der verdeckten Teile der Kleidung) und der Konsistenz des Hintergrunds eine neue, logische Körperhaltung generieren. Diese Fähigkeit kommt eher einer „Neuimagination“ als einer „Änderung“ nahe.

Dennoch ist es nicht korrekt, Qwen-Image einfach als Ersatz für Photoshop zu betrachten. Die Kernarbeitsweisen beider unterscheiden sich grundlegend.

Das Wichtigste ist die Kontrollgranularität. Photoshop bietet eine pixelgenaue, deterministische Kontrolle. Der Benutzer kann einen beliebigen Pixel auswählen und ihm einen genauen RGB-Wert zuweisen. Die Kontrolle von Qwen-Image ist auf semantischer Ebene und probabilistisch. Der Benutzer beschreibt „was“, nicht „wie“. Man kann nicht durch Anweisungen die Farbe eines bestimmten Pixels genau kontrollieren, und das Bearbeitungsergebnis wird immer in gewissem Maße vom Modell „frei interpretiert“ und hat eine gewisse Zufälligkeit.

Der Kern von Photoshop ist ein nichtlinearer, nicht-destruktiver Arbeitsablauf auf der Grundlage von Ebenen. Der Benutzer kann jederzeit eine beliebige Ebene ändern, ohne die anderen Teile zu beeinträchtigen. Die Bearbeitung mit Qwen-Image ist eher ein „einmaliger