Meituan LongCat-Next: Umwandlung von Bildern, Geräuschen und Texten in Token

Ein diskretes, nativ autoregressives multimodales Large Language Model.

In letzter Zeit hat Meituan ein bedeutendes multimodales Forschungsgebot vorgestellt - LongCat-Next.

Dies ist ein diskretes, natives autoregressives multimodales Grosmodell, das auf der LongCat-Flash-Lite MoE-Architektur aufbaut. Die Gesamtzahl der Parameter beträgt 68,5 Milliarden, die aktiven Parameter nur 3 Milliarden. Es kann in einem einheitlichen Rahmen Text, Bilder und Audio gleichzeitig verarbeiten.

Das Auftauchen dieses Modells stellt eine direkte Herausforderung an eine seit langem bestehende Annahme im multimodalen Bereich dar: Die Diskretisierung von visuellen Informationen in Token führt zu einem erheblichen Verlust an Details. Bei feingranularen Verständnistasks wie OCR und komplexen Diagrammen ist es von Natur aus schwächer als kontinuierliche Featuremodelle.

LongCat-Next ist derzeit das erste einheitliche multimodale Modell, das in einem rein diskreten Rahmen die Fähigkeit zur feingranularen visuellen Wahrnehmung auf ein Niveau bringt, das mit spezialisierten kontinuierlichen Modellen vergleichbar ist. Es ist mit dem spezialisierten visuellen Modell Qwen3-VL-A3B mit gleicher Parameterzahl nicht zu unterschätzen.

Bei der Bildgenerierung hat es im Vergleich zu anderen einheitlichen Modellen deutliche Vorteile in der Fähigkeit zur Verarbeitung von langen Texten und der Textrendering. Die Gesamtqualität der Generierung kann mit dem spezialisierten Text-zu-Bild-Modell Flux-dev mithalten.

Im Bereich Audio übertrifft es die Spracherkennungs- und -verständnisfähigkeiten von Modellen wie Gemini 3.1 Flash-Lite preview und MiMo-Audio mit ähnlicher Größe.

LongCat-Next hat auch das Optimierungskonflikt zwischen visueller Wahrnehmung und Generierung gelöst.

Experimente in der Publikation zeigen, dass bei gleichem Token-Budget die gemeinsame Schulung von Verständnis- und Generierungstasks sich nicht gegenseitig behindern. Der Trainingssignal des Verständnistasks fördert stattdessen die Generierungsqualität positiv. Diese Schlussfolgerung widerspricht der praktischen Erfahrung der meisten einheitlichen Modelle.

Nach der gemeinsamen Schulung aller Modalitäten in Form von diskreten Token in demselben Einbettungsraum tritt innerhalb des Modells spontan ein Phänomen des intermodalen semantischen Mischens auf. Visuelle Token und Text-Token bilden eine verzahnte Verteilung im Repräsentationsraum.

Publikationslink: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

GitHub: https://github.com/meituan-longcat/LongCat-Next

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

Blog: https://longcat.chat/longcat-next/intro

Im Folgenden werden wir die Fähigkeiten von LongCat-Next anhand einiger konkreter Beispiele direkt erleben.

Ein erster Blick: Erste Erfahrungen mit Text, Bild und Audio

Zuerst testen wir seine Fähigkeit zur visuellen Wahrnehmung.

Wir laden ein Bild von Blumenarrangements mit der Farbpalette aus "La La Land" hoch und lassen LongCat-Next die Pflanzen darin erkennen und ihre jeweiligen Merkmale beschreiben.

Anweisung: Welche Pflanzen sind im Blumenstrauß enthalten und welche Merkmale haben sie?

Das Modell erkennt genau gelbe Rosenbüsche, lila Eustomas, Salbeiartige Kräuter und Begleitpflanzen und beschreibt ihre Farben und Formen detailliert. Es ergänzt auch eine Analyse des gesamten Farbstyles des Blumenstraußes.

Wir untersuchen dann die Fähigkeit des Modells zur Bilderkennung von städtischen Wahrzeichen in China anhand von drei Gebäuden mit unterschiedlichem Stil.

Anweisung: Wo befinden sich diese drei Orte?

LongCat-Next erkennt genau das "Wangjing Eye" in Peking, das Bank of China Tower in Guangzhou und das Nanjing Youth Olympic Center. Es kennt auch die Hintergrundinformationen zu jedem Wahrzeichengebäude.

Beispielsweise erwähnt es den Netz-Namen "Kakerlakenturm" des Bank of China Tower in Guangzhou und seine einzigartige Form, sowie die Tatsache, dass das Nanjing Youth Olympic Center von Zaha Hadid entworfen wurde.

Die folgende Grafikrätsele Aufgabe erfordert nicht nur die Fähigkeit des Modells zur Bildwahrnehmung, sondern auch die Fähigkeit zur Induktion abstrakter Regeln.

Anweisung: Welche Option sollte für diese Frage gewählt werden?

LongCat-Next erkennt die Regel: Jedes Bild besteht aus einem Rahmen und inneren schwarzen Punkten. Durch die horizontale Vergleich mehrerer Datensätze kommt es zu der versteckten Regel "Anzahl der Rahmenkanten - Anzahl der schwarzen Punkte = 2" und wählt schließlich die Antwort B aus.

Schauen wir uns nun die Fähigkeit zur Bildgenerierung an.

Das von LongCat-Next generierte Bild eines Gebirgssees am Sonnenaufgang erreicht in Bezug auf Komposition und Lichtübergang fast die Qualität professioneller Landschaftsfotografie.

Prompt: Ein kristallklarer Gebirgssee, der die verschneiten Gipfel am Sonnenaufgang spiegelt. Ruhiges Wasser, spiegelnde Reflexion, rosa und goldener Himmel, Kiefern entlang des Ufers.

Das folgende Beispiel untersucht hauptsächlich die Fähigkeit zur Textrendering. Im generierten Produktbild einer Tasse ist der Text nicht verzerrt oder fehlerhaft. Das Ganze hat einen minimalistischen Stil.

Prompt: Eine weiße Tasse auf einem Holzschreibtisch mit dem Text "LongCat-Next" in sauberer Schrift. Einfacher Hintergrund, Morgenschein durch ein Fenster, minimalistische Produktfotografie.

Das von LongCat-Next generierte Bild von Santorini zeichnet sich vor allem durch seine Farbgebung aus. Die blauen Kuppeln, weißen Wände, Bougainvilleas und der Sonnenuntergang bilden einen starken und harmonischen Farbkontrast und schaffen eine sehr stimmungsvolle Atmosphäre.

Prompt: Weiße Gebäude mit blauen Kuppeln in Santorini, die auf das Ägäische Meer am Sonnenuntergang blicken. Warmes goldenes Licht, Bougainvilleablüten, ruhiges Meer, das ikonische Bild der griechischen Insel.

LongCat-Next unterstützt auch die Ausgabe in beliebigen Auflösungen. Selbst bei extremen Seitenverhältnissen kann es stabile Generierungen liefern.

Ausßerhalb des visuellen Bereichs integriert LongCat-Next auch Audio in einen einheitlichen diskreten autoregressiven Rahmen.

Seine Fähigkeit zur Audio-Wahrnehmung kann wie bei der Textverarbeitung genaue und kohärente Antworten auf Audiosignale geben, einschließlich Spracherkennung und semantischem Verständnis in komplexen Szenarien.

Wenn man es beispielsweise mit einer klassischen logischen Rätsel in Sichuan-Dialekt fragt, gibt es keine Erkennungsfehler oder semantischen Verluste. Das Audiosignal des Sichuan-Dialekts wird genau in semantische Inhalte umgewandelt, die für die logische Analyse verwendet werden können, und fließt reibungslos in den anschließenden logischen Analyseprozess ein.

Dies zeigt in gewissem Maße, dass die diskrete Repräsentation von Audio in LongCat-Next eine beträchtliche Robustheit aufweist. Akustische Varianten wie Dialekte und Akzente stellen keine Unterbrechungen in der Verständnis-Kette dar.

Wenn man es mit einer Umgebungsaufnahme versorgt, kann es aus den kontinuierlichen, rhythmischen "Klick"-Geräuschen und Dampfhornsignalen genau bestimmen, dass der Aufnahmeort in der Nähe eines Bahnhofs, einer U-Bahnstation oder einer Eisenbahnstrecke liegt.

Daraus ist ersichtlich, dass LongCat-Next mehrere akustische Hinweise kombinieren kann, um eine semantische Inferenz auf Szenenebene durchzuführen.

Es kann auch die Emotionen hinter den Worten empfinden. Beispielsweise kann es in einem männlichen Audiosignal nicht nur den wörtlichen Inhalt verstehen, sondern auch aus der erhöhten Lautstärke und der schnellen Sprechgeschwindigkeit erkennen, dass der Sprecher emotional aufgeregt und deutlich wütend ist.

Außer dem "Verstehen" von Audio hat LongCat-Next auch Fähigkeiten zur Sprachsynthese und Stimmenklonierung.

Wenn man ihm ein Referenz-Audio mit starkem Guangdong-Akzent in Mandarin gibt und es ihm so anweist, neue Zielinhalte zu synthetisieren, während es die Stimmmerkmale des Sprechers beibehält, kann es die Stimme des Sprechers genau wiedergeben und den unverwechselbaren Guangdong-Akzent in Mandarin vollständig beibehalten.

In einem englischen Szenario, wenn man ihm ebenfalls ein Referenz-Audio gibt und es ihm auffordert, die Stimme zu klonieren und die angegebene Inhalte zu wiederholen, kann LongCat-Next die Stimmmerkm

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Meituan LongCat-Next: Wandelt Bilder, Geräusche und Texte in Token um. Und dann?

Ein erster Blick: Erste Erfahrungen mit Text, Bild und Audio