StartseiteArtikel

Meituan's LongCat-Video wird offiziell veröffentlicht und als Open-Source-Projekt freigegeben, unterstützt effiziente Erzeugung von Langvideos

36氪的朋友们2025-10-27 16:58
Meituan hat das Open-Source-Videogenerierungsmodell LongCat-Video freigegeben, das Aufgaben wie Text-zu-Video- und Bild-zu-Video-Generierung unterstützt.

Am 27. Oktober hat das LongCat-Team von Meituan das Videogenerierungsmodell LongCat-Video veröffentlicht und als Open-Source-Projekt freigegeben. Das Team hat angegeben, dass das Modell in einer einheitlichen Architektur grundlegende Aufgaben wie die Text-zu-Video-Generierung (Text-to-Video), die Bild-zu-Video-Generierung (Image-to-Video) und die Videofortsetzung unterstützt und in internen und öffentlichen Benchmark-Tests (einschließlich VBench) führende Ergebnisse im Open-Source-Bereich erzielt hat.

▲ Das Videogenerierungsmodell LongCat-Video erreicht im Bereich der Text- und Bild-zu-Video-Generierung die Spitzenleistung im Open-Source-Bereich (Dokumentationsbild)

Der technische Bericht zeigt, dass LongCat-Video auf der Diffusion Transformer (DiT)-Architektur basiert und Aufgaben anhand der Anzahl der "Bedingungsbilder" unterscheidet: Bei der Text-zu-Video-Generierung werden keine Bedingungsbilder eingegeben, bei der Bild-zu-Video-Generierung wird ein Referenzbild eingegeben, und bei der Videofortsetzung wird auf mehrere vorherige Bilder zurückgegriffen. Ohne zusätzliche Modellmodifikationen können drei Arten von Aufgaben abgedeckt werden.

Um die Fähigkeit zur Generierung von Videos mit langer Sequenz zu verbessern, hat das Modell im Voreinarbeitungsphase die native Videofortsetzungsaufgabe eingeführt. Das Team hat erklärt, dass das Modell stabil Videos im Minutenbereich generieren kann und gezielt Optimierungen in Bezug auf die zeitliche Konsistenz zwischen Frames und die Rationalität der physikalischen Bewegung vorgenommen hat, um Probleme wie Farbverschiebung, Bildqualitätsabnahme und Bewegungseinbrüche zu reduzieren.

In Bezug auf die Effizienz kombiniert das Modell die Block-Sparse-Attention (BSA) mit einem Mechanismus zur Zwischenspeicherung von bedingten Token, um die Redundanz bei der Inferenz langer Sequenzen zu verringern. Es wird behauptet, dass bei der Verarbeitung von Sequenzen mit 93 Frames oder mehr ein stabiler Ausgleich zwischen Effizienz und Generierungsqualität aufrechterhalten werden kann. Für Szenarien mit hoher Auflösung und hoher Bildrate wird eine kombinierte Strategie aus "zweistufiger Grob-zu-Fein-Generierung (C2F) + BSA + Distillation" angewendet. Der Bericht besagt, dass die Inferenzgeschwindigkeit im Vergleich zur Basislinie auf etwa das 10,1-fache gesteigert wurde.

Was die Parameteranzahl betrifft, hat das Basismodell von LongCat-Video etwa 13,6 Milliarden Parameter. Die Bewertung umfasst Dimensionen wie die Textausrichtung, die Bildausrichtung, die visuelle Qualität, die Bewegungsqualität und die Gesamtqualität. Das Team hat angegeben, dass das Modell in Bezug auf Indikatoren wie die Textausrichtung und die Bewegungsflüssigkeit hervorragend abschneidet und in öffentlichen Benchmark-Tests wie VBench gute Ergebnisse erzielt hat.

Das LongCat-Team hat die Veröffentlichung als einen Schritt in der Erforschung der Richtung "Weltmodell (World Model)" positioniert. Der zugehörige Code und das Modell wurden als Open-Source-Projekt veröffentlicht. Alle oben genannten Schlussfolgerungen und Leistungsangaben stammen aus dem technischen Bericht und den Veröffentlichungsmaterialien des Teams.

Dieser Artikel stammt von "Tencent Technology", Übersetzung: Xiaojing, veröffentlicht von 36 Kr mit Genehmigung.