StartseiteArtikel

Ein weiteres chinesisches großes Bildmodell wird Open-Source. In der praktischen Testphase ist die kontinuierliche Bildbearbeitung ausgezeichnet, während die chinesische Text-Rendering ein Schwachpunkt ist.

智东西2025-12-08 18:45
Das Bildgenerierungsmodell mit 6 Milliarden Parametern hat sich in die offene Quelle SOTA eingeschlichen.

Nach einer Meldung von Zhidongxi am 8. Dezember hat Meituan heute offiziell das Bildgenerierungsmodell LongCat-Image veröffentlicht und als Open-Source-Projekt freigegeben. Es handelt sich um ein Modell mit 6 Milliarden Parametern, das auf dem Gebiet der Bildbearbeitung auf Open-Source-SOTA-Niveau ist und sich insbesondere auf die beiden Kernanwendungsfälle Text-zu-Bild und Einzelbildbearbeitung konzentriert.

▲Quelle der Abbildung: Hugging Face

Aus den von der offiziellen Seite veröffentlichten Ergebnissen der Benchmark-Tests geht hervor, dass LongCat-Image hauptsächlich mit etablierten Open-Source- und Closed-Source-Bildgenerierungsmodellen wie Seedream4.0, Qwen-Image, HunyuanImage-3.0, Nano Banana und FLUX.1-dev verglichen wurde. Die Kernoptimierungen konzentrieren sich auf die beiden Fähigkeiten "Kontrollierbarkeit der Bearbeitung" und "Rendering von chinesischen Schriftzeichen".

In der praktischen Nutzung zeigt es sich, dass das Modell bei der kontinuierlichen Bildbearbeitung, Stiländerungen und Materialdetails gut abschneidet. Bei komplexen Layouts ist das Rendering von chinesischen Schriftzeichen jedoch immer noch instabil. Bei Aufgaben wie der Erstellung komplexer UI-Designs und Spieloberflächen zeigt das Modell auch gewisse Mängel in der Ästhetik, was möglicherweise damit zusammenhängt, dass es keine Fähigkeit zur Internetrecherche hat.

Meituan bietet auch verschiedene Möglichkeiten, das Modell zu nutzen. Auf mobilen Geräten unterstützt die LongCat-App bereits die Fähigkeiten zur Text-zu-Bild- und Bild-zu-Bild-Generierung. Im Webbrowser können Benutzer über die URL https://longcat.ai/ auf die Bildgenerierungsseite zugreifen und das Modell testen.

Für Entwickler sind die Modellgewichte und der Quellcode von LongCat-Image ebenfalls als Open-Source-Projekt freigegeben:

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

GitHub: https://github.com/meituan-longcat/LongCat-Image

Im Folgenden werden wir uns die Modellstruktur, die Testergebnisse und die praktischen Leistungsergebnisse von LongCat-Image ansehen.

01. Von der Modellstruktur bis zu den Testergebnissen: LongCat-Image setzt auf "Kontrollierbarkeit der Bearbeitung" und "Rendering von chinesischen Schriftzeichen"

Beim Design des Modells verwendet LongCat-Image eine einheitliche Architektur für die Text-zu-Bild-Generierung und die Bildbearbeitung. Durch eine schrittweise Lernstrategie kann es bei nur 6 Milliarden Parametern die Genauigkeit der Befehlseinhaltung, die Qualität der Bildgenerierung und die Fähigkeit des Schriftzeichenrenderings gleichzeitig verbessern.

▲Modellarchitektur

Dieser Trainingsansatz beginnt nicht mit dem Aufbau von Parametern von Grund auf, sondern initialisiert das Modell auf der Grundlage eines mittlerweile trainierten Text-zu-Bild-Modells. In den folgenden Phasen wird ein Mehrfachaufgaben-Lernmechanismus für die Text-zu-Bild-Generierung und die Befehlsbearbeitung verwendet, um das Problem zu vermeiden, dass die Bearbeitungsfähigkeit in der späten Trainingsphase eingeschränkt wird.

Bei der Bildbearbeitungsfähigkeit hat LongCat-Image in mehreren Bearbeitungs-Benchmarks wie GEdit-Bench und ImgEdit-Bench Open-Source-SOTA-Ergebnisse erzielt.

▲Vergleich der Leistung in objektiven Benchmark-Tests

Durch die Vorhersage mit mehrquelligen Daten, die Strategie zur Befehlsänderung und die Einführung von manuell annotierten SFT-Daten ist das Modell bei komplexen Bearbeitungsanforderungen weniger anfällig für Stilabweichungen und strukturelle Verzerrungen.

Um das seit langem bestehende Problem des Renderings von chinesischen Schriftzeichen zu lösen, verwendet LongCat-Image synthetische Glyphen-Daten, die 8.105 reguläre chinesische Schriftzeichen abdecken, für die Vorhersage. In der SFT-Phase werden echte Textdokumente eingeführt, um die Layout- und Schriftgeneralisierungsfähigkeit zu verbessern. In der RL-Phase werden auch OCR- und Ästhetik-Doppelbelohnungsmodelle eingeführt, um die Leistung zu verbessern. Schließlich hat es in der ChineseWord-Bewertung 90,7 Punkte erzielt, was es vor den bestehenden Open-Source-Modellen platziert.

In Bezug auf die Realismusfähigkeit vermeidet LongCat-Image bewusst die "Kunststoffigkeit" von AIGC-Texturen durch adversives Training und einen strengen Datenselektionsmechanismus. In der RL-Phase wird ein AIGC-Detektor als Belohnungssignal eingeführt, um das Modell dazu zu bringen, die physikalischen Texturen und Licht- und Schatteneffekte der realen Welt zu lernen.

Die Gesamtergebnisse der Bewertung zeigen, dass LongCat-Image in der subjektiven menschlichen Bewertung (MOS) in mehreren Unterkategorien wie Textausrichtung, visueller Realismus und Ästhetikqualität nahe an die Leistung kommerzieller Modelle wie Seedream4.0 herankommt.

▲Vergleich der subjektiven menschlichen Bewertung (MOS)

▲Gewinnrate im direkten Vergleich (SBS)

Im direkten Vergleich (SBS) von Bildbearbeitungsaufgaben hat LongCat-Image-Edit in den beiden Schlüsselindikatoren Gesamtqualität und Konsistenz eine hohe Gewinnrate gegenüber Modellen wie NanoBanana und Qwen-Image-Edit erzielt.

Gesamt gesehen hat LongCat-Image in Bildbearbeitungsaufgaben eine Leistung erreicht, die der von einigen Closed-Source-Modellen nahe kommt, und es gehört auch zu den Spitzenmodellen in der Open-Source-Szene bei der Text-zu-Bild-Generierung.

02. Von der Neuerstellung von Comics bis zur Produktrendering: Kontinuierliche Bearbeitung ist stabil, aber das Rendering von chinesischen Schriftzeichen bleibt ein Problem

In der praktischen Nutzung hat LongCat-Image eine stabile Leistung bei der "Kontinuierlichen Befehlsbearbeitung" gezeigt. Wir haben das Modell mit Bildern aus dem aktuellen Hitfilm "Zootopia 2" getestet und auf der Grundlage desselben Charakters mehrere Runden von Änderungen vorgenommen.

▲Referenzbild

Befehl: In ein Pixelstil-Werk umwandeln.

Befehl: Neu zeichnen als Farbbild, Pixelqualität beibehalten.

Befehl: Die Figur im Bild neu zeichnen als Tier im Lego-Bausatz-Design.

Im Comic-Bildtest konnte das Modell durch kontinuierliche Neuzeichnungsbefehle wie Pixelstil, Farbpixel-Neuzeichnung und Lego-Bausatz-Design die Charakterstruktur stabil halten und gleichzeitig mehrere Runden von Stil- und Materialänderungen durchführen. Während der mehrfachen Änderungen traten keine offensichtlichen Fehler in der Figurkontur und im Layout auf.

Darüber hinaus haben wir auch die Möglichkeit getestet, Filmposter zu erstellen. Wir haben dasselbe Charakterbild verwendet, um das Hauptvisuelle des Posters zu generieren und die Übersetzung der Titel in mehreren Sprachen zu testen.

Befehl: Ein Werbeposter für den Film "Zootopia 2". Das Hauptbild des Posters zeigt eine aufregende Szene des Hauptcharakters des Films. Der Haupttitel soll in künstlerischer Handschrift "Zootopia 2" sein, darunter soll der englische Name "Zootopia" stehen. Darüber hinaus sollen alle anderen erforderlichen Kleintexte auf dem Filmposter erscheinen, und die Texte sollen klar lesbar sein.

Im Filmposter-Szenario hat das Modell eine stabile Leistung bei der Übernahme des Referenzbilds gezeigt. Sowohl die Figur als auch die Pose stimmen gut mit dem Originalbild überein, und die Haupttitel in chinesischer und englischer Sprache sind auch klar lesbar. In den "Kleintext"-Bereichen gibt es jedoch immer noch Probleme mit unleserlichen Zeichen und gemischten englischen Texten, was zeigt, dass das Rendering von chinesischen Schriftzeichen in komplexen Layouts immer noch instabil ist.

Beim Testen von chinesischen Postern im Stil eines Personenarchivs konnte das Modell einige Kerninformationen korrekt rendern, aber es traten dennoch unausweichlich Probleme wie die Fehlpositionierung von chinesischen und englischen Texten und lokale unleserliche Zeichen auf.

Befehl: Ein Werbeposter im Stil eines Personenarchivs für einen Animationsfilmcharakter generieren. Die folgenden Informationen sollen im Text enthalten sein: Nick Wilde, ein Fuchs aus dem Disney-Animationsfilm "Zootopia". Chinesischer Name: Nick der Fuchs. Englischer Name: Nick Wilde. Ursprungstier: Rotfuchs. Beruf: Von Betrüger zu Polizist. Partnerin: Polizistin Judy Hopps. Berühmtes Zitat: "Hurt your widdle feelings?"

Beim Produktrendering-Test hat die Figur der Polizistin Judy in verschiedenen realen Szenarien wie Studiolicht, warmem Lampenlicht, natürlichem Tageslicht im Wohnzimmer und Bettzeuglicht eine stabile Leistung gezeigt. Die Details der kurzen Flur, die Spiegelung der Augen, der Materialvergleich zwischen Sofa und der Figur konnten relativ genau dargestellt werden, und das Ergebnis ist insgesamt näher an dem von kommerziellen Produktrenderings.

Im Vergleich dazu sind die Schwächen von LongCat-Image in der Generierung von Spieloberflächen, in denen die etablierten Modelle besser abschneiden, deutlicher. Sowohl bei Kartenspielen, Shooter-Spielen als auch bei MOBA-Spielen im ersten Personensicht hat das Modell einen Stil, der eher an die UI-Design-Ästhetik von vor über zehn Jahren erinnert und einen deutlichen Unterschied zu den aktuellen Spiel