StartseiteArtikel

GitHub hat in einer Woche 2000 Sterne erreicht. Ein chinesisches All-in-One-Modell für die Bildgenerierung, ein wahres Wunderwerk, hat ein Upgrade erhalten. Sowohl das Verständnis als auch die Qualität sind verbessert, und es hat sogar gelernt, "nachzudenken".

量子位2025-07-03 15:21
Das Zhiyuan Institut aktualisiert OmniGen2.

Ein chinesisches Open-Source-Einheitsbildgenerierungsmodell, eine technologische Revolution!

Neuer Fortschritt von der Institute of Intelligence and Computing (BAAI):

Der OmniGen, ein Modell, das Text-zu-Bild-Generierung, Bildbearbeitung und themengetriebene Bildgenerierung unterstützt, hat seine Version 2.0 offiziell veröffentlicht.

Genauer gesagt hat OmniGen2 auf der Grundlage einer schlanken Architektur seine Fähigkeit zur Kontextverstehen, Befehlseinhaltung und Bildgenerierungsqualität deutlich verbessert.

Zugleich hat OmniGen2 die Fähigkeiten seines Basis-Multimodal-Modells in Bezug auf Kontextverstehen und -generierung vollständig übernommen und gleichzeitig die Generierung von Bildern und Texten unterstützt, wodurch das Multimodal-Technologieökosystem weiter vernetzt wurde.

Sobald das Modell online ging, löste es breite Diskussionen in der Open-Source-Community aus. Innerhalb einer Woche nach der Veröffentlichung erreichte es über 2.000 Sterne auf GitHub, und die Anzahl der Ansichten zu den relevanten Themen auf X belief sich auf hunderttausende.

Jetzt ist die Forschungsexpertenversion verfügbar. Sie können die besonderen Fähigkeiten wie Bildbearbeitung und kontextbezogene Bildgenerierung vorab testen (Link am Ende des Artikels).

Das Team hat auch zugesichert, dass die Modellgewichte, Trainingscode und Trainingsdaten von OmniGen2 vollständig Open-Source sein werden, um den Community-Entwicklern eine Grundlage für die Optimierung und Erweiterung zu bieten.

Mehrere Spielarten, nur mit Prompten freizuschalten

OmniGen2 ist einfach zu bedienen. Mit nur einem Prompt können Sie eine Vielzahl von Bildbearbeitungs- und -generierungsfunktionen freischalten.

1. Bildbearbeitung basierend auf natürlicher Sprache

OmniGen2 unterstützt die Bildbearbeitung basierend auf natürlicher Sprache. Es kann lokale Änderungen vornehmen, einschließlich Hinzufügen oder Entfernen von Objekten, Anpassen von Farben, Ändern von Gesichtsausdrücken und Ersetzen von Hintergründen.

2. Bildgenerierung mit multimodalem Kontextreferenz

OmniGen2 kann bestimmte Elemente aus einem Eingabebild extrahieren und auf der Grundlage dieser Elemente neue Bilder generieren. Beispielsweise kann es Gegenstände oder Personen in eine neue Szene setzen. Derzeit ist OmniGen2 besser darin, die Ähnlichkeit von Objekten als von Gesichtern beizubehalten.

3. Text-zu-Bild-Generierung

OmniGen2 kann Bilder in beliebigen Formaten generieren.

Von der innovativen Architektur zum Reflexionsmechanismus für Bildgenerierung

Schauen wir uns nun die technischen Details an.

Trennarchitektur + Doppelencoder-Strategie

OmniGen2 verwendet eine Trennarchitektur, um Text und Bild zu entkoppeln, und eine Doppelencoder-Strategie mit ViT und VAE.

Im Gegensatz zu anderen Ansätzen arbeiten ViT und VAE unabhängig in MLLM und Diffusion Transformer, um die Bildkonsistenz zu verbessern und gleichzeitig die bestehende Textgenerierungsfähigkeit zu erhalten.

Neuaufbau des Daten-Generierungsprozesses

OmniGen2 sucht auch nach Lösungen für die Probleme bei den Grunddaten und der Bewertung, die die Entwicklung des Bereichs behindern.

Die meisten Open-Source-Datensätze haben inhärente Qualitätsprobleme, insbesondere bei der Bildbearbeitung. Sowohl die Bildqualität als auch die Genauigkeit sind nicht hoch. Bei der kontextbezogenen Bildgenerierung fehlt es an entsprechenden umfangreichen und vielfältigen Trainingsdaten. Diese Mängel führen zu einem deutlichen Leistungsunterschied zwischen Open-Source- und kommerziellen Modellen.

Um dieses Problem zu lösen, hat OmniGen2 einen Prozess entwickelt, um Bildbearbeitungs- und kontextbezogene Daten aus Videodaten und Bilddaten zu generieren.

Reflexionsmechanismus für Bildgenerierung

Angeregt von der Selbstreflexionsfähigkeit von großen Sprachmodellen hat OmniGen2 auch die Möglichkeit erforscht, die Reflexionsfähigkeit in ein multimodales Generierungsmodell zu integrieren.

Auf der Grundlage des Basismodells von OmniGen2 wurde ein Reflexionsdatensatz für die Bildgenerierung erstellt.

Der Reflexionsdatensatz besteht aus einer abwechselnden Sequenz von Text und Bildern. Zunächst ist es ein Benutzerbefehl, dann ein vom multimodalen Modell generiertes Bild und schließlich eine schrittweise Reflexion über die vorherige Ausgabe.

Jede Reflexion betrifft zwei Schlüsselaspekte:

Die Analyse von Mängeln oder unerfüllten Anforderungen im Vergleich zum ursprünglichen Befehl;

Die Lösungsmöglichkeiten, um die Einschränkungen des vorherigen Bildes zu überwinden.

Das trainierte Modell hat eine grundlegende Reflexionsfähigkeit. Das Ziel ist es, es in Zukunft mit Verstärkungslernen weiter zu trainieren.

Neuer Benchmark

OmniGen2 hat konkurrenzfähige Ergebnisse auf bestehenden Benchmarks erzielt, einschließlich Text-zu-Bild-Generierung und Bildbearbeitung.

Für die kontextbezogene Bildgenerierung (in-context generation) fehlt es jedoch an einem vollständigen öffentlichen Benchmark, um die Schlüsselfähigkeiten verschiedener Modelle systematisch zu bewerten und zu vergleichen.

Die bestehenden Benchmarks für die kontextbezogene Bildgenerierung sind bei der Erfassung realer Anwendungsfälle unzureichend. Sie berücksichtigen nicht Szenarien mit mehreren Eingabebildern und sind an die Art des Kontexts und der Aufgabe gebunden. Frühere Benchmarks haben die CLIP-I- und DINO-Metriken verwendet, um die Qualität der kontextuell generierten Bilder zu bewerten. Diese Metriken basieren auf der bildlichen Ähnlichkeit zwischen Eingabe und Ausgabe, was sie für Szenarien mit mehreren Themen ungeeignet macht und die Interpretierbarkeit fehlt.

Um diese Einschränkung zu überwinden, hat das Team den OmniContext-Benchmark eingeführt, der 8 Aufgabenkategorien umfasst und speziell für die Bewertung der Übereinstimmung von Personen, Objekten und Szenen entwickelt wurde.

Der Datensatz wurde mit einer hybriden Methode erstellt, die die Vorselektion durch ein multimodales Großsprachenmodell und die manuelle Markierung durch menschliche Experten kombiniert.

Als erstes Modell, das auf diesem Benchmark evaluiert wurde, hat OmniGen2 einen Gesamtscore von 7,18 erreicht, was es vor anderen führenden Open-Source-Modellen wie BAGEL platziert. Dies beweist, dass es die Fähigkeit zur Befehlseinhaltung und die Subjektkonsistenz gut ausbalancieren kann und in verschiedenen Aufgaben stabil funktioniert.

Darüber hinaus nutzt OmniGen2 das von der BAAI selbst entwickelte parallele Framework FlagScale für das Training und die Inferenz von Großmodellen, um die Inferenz-Deployment-Optimierung durchzuführen. Durch den tiefgreifenden Neuanbau der Inferenzkette und die Integration der TeaCache-Caching-Beschleunigungsstrategie wurde die Inferenzleistung um 32 % verbessert, die Antwortzeit erheblich verkürzt und die Serviceleistung verstärkt.

Zugleich unterstützt das Framework die elastische Bereitstellung von mehreren Instanzen über mehrere Maschinen mit einem Klick, was die Gesamtauslastung der Clusterressourcen effektiv erhöht. Das Team wird die Hardware-Software-Kooptimierung fortsetzen und ein effizientes System für die Inferenz-Deployment-Fähigkeit aufbauen.

Die Modellgewichte, Trainingscode und Trainingsdaten von OmniGen2 werden vollständig Open-Source sein, um den Entwicklern eine neue Grundlage für die Optimierung und Erweiterung zu bieten und die Umsetzung des einheitlichen Bildgenerierungsmodells von der Idee zur Realität zu beschleunigen.

Links zu OmniGen2

Github: https://github.com/VectorSpaceLab/OmniGen2/ Paper: https://arxiv.org/abs/2506.18871 Modell: https://huggingface.co/BAAI/OmniGen2 Forschungsexpertenversion: https://genai.baai.ac.cn

*Dieser Artikel wurde mit Genehmigung von QbitAI veröffentlicht. Die Ansichten sind nur die des ursprünglichen Autors.  

Dieser Artikel stammt aus dem WeChat-Account “QbitAI”, Autor: Yun Zhong. 36Kr hat die Veröffentlichung genehmigt.