Ein Satz genügt: Nanyang Technological Universitys hierarchisches Agent-Framework bringt KI-Kurzstückproduktion auf Standardisierungsweg

Agent übernimmt alles, einschließlich Erzählung, Bildgestaltung und Nachbearbeitung.

In den letzten Jahren hat die rasante Entwicklung von Video-Basis-Modellen die Fähigkeit zur automatischen Kurzfilmgenerierung erheblich verbessert. Modelle wie Sora, Kling, Seedance und Veo haben bereits in der One-shot-Videoerzeugung eine starke Leistung gezeigt.

Allerdings basiert die gegenwärtige Kurzfilmproduktion normalerweise auf der One-shot-Generierung von Large Language Models (LLM) und einem lose gekoppelten Workflow und weist immer noch drei Mängel auf:

Schwacher Erzählrhythmus: Der Anfang fängt nicht an, und die Spannung der Handlungskonflikte ist unzureichend.
Mangelnde räumliche Konsistenz: Es ist schwierig, die Sznenanordnung und die Position der Personen nach einem Kameraschnitt kohärent zu halten.
Unreife Qualitätskontrolle: Der Generierungsprozess erfordert immer noch eine umfangreiche manuelle Prüfung und Korrektur.

Um dieses Problem zu lösen, hat ein Forschungsteam der Nanyang Technological University und seine Partner das schichtweise Agent-Framework "Ein Satz, ein Kurzfilm" (One Sentence, One Drama) veröffentlicht. Wenn der Benutzer nur einen kreativen Satz angibt, kann dieses Agent-Framework einen fertig produzierten, optisch ansprechenden und individuellen Kurzfilm generieren.

Link zur Studie: https://arxiv.org/abs/2605.22144

Um die Effektivität der Kurzfilmgenerierung zu bewerten, hat das Forschungsteam auf der Grundlage von Standard-Videoqualitätsindikatoren zusätzliche, für Kurzfilme spezifische Kriterien hinzugefügt. Die Experimentergebnisse zeigen, dass "One Sentence, One Drama" in Bezug auf die Erzählqualität, die Konsistenz zwischen den Kameraschnitten und das Gesamtanschauungserlebnis deutlich besser als die bestehenden Produktionsabläufe ist.

Dies zeigt auch, dass mit der ständigen Verbesserung des von Agenten angetriebenen strukturierten Prozesses die Produktion von Kurzfilmen und sogar längerer Videoinhalte in eine Phase mit kontrollierbarer Qualität eintritt.

Abbildung | Von einem Satz zu einem vollständigen Kurzfilm.

Wie wird ein Kurzfilm aus einem Satz erzeugt?

Laut der Studie besteht der gesamte automatische Videoproduktionsprozess aus vier Schritten: Erzählungserstellung, Generierung von visuellen Materialien und Prompten, Erzeugung eines konsistenten ersten Bildes durch 3D-Szenenankern und Nachbearbeitung. Der Prüfschritt verläuft durch den gesamten Prozess und ist für die Qualitätskontrolle des Videos verantwortlich.

Abbildung | Der individuelle Kurzfilmgenerierungsprozess gliedert sich in vier Phasen.

Erzählungserstellung: Der Agent erstellt zunächst eine strukturierte Erzählung und ein Storyboard durch Recherche und Multi-Agent-Debatte. Anschließend ruft er eine Bibliothek von Rhythmusmustern und Kausalitätsschemata auf, die aus etwa 300 hochwertigen Kurzfilmen extrahiert wurden, und kombiniert Erzählungseinheiten nach den drei Dimensionen Tatsache, Logik und Rhythmus, um einen kontrollierbaren Kurzfilmrahmen aufzubauen.

Abbildung | Erzählungserstellungsrahmen basierend auf Multi-Agent-Debatte.

Generierung von visuellen Materialien und Prompten: Der Agent erzeugt zunächst eine Panoramabild der Szene und Referenzbilder der Charaktere, und dann erstellt er für jedes Segment ein erstes Bild und Video-Prompte. Die Prompte für das erste Bild definieren die Komposition und Perspektive des ersten Bildes, während die Video-Prompte die nachfolgenden Aktionen, die Interaktionen zwischen den Personen und die Kamerabewegungen beschreiben. Vor der Generierung überprüft das Prüfmodul, ob die räumlichen Beziehungen und die Gegenstände kohärent sind. Wenn es Probleme gibt, wird die Generierung neu durchgeführt.

Erzeugung eines konsistenten ersten Bildes durch 3D-Szenenankern: Der Agent rekonstruiert zunächst den Szenenraum anhand des Panoramabildes, und dann vereinigt er die Bewegung der Personen, die Kameraposition und die Szenenbeziehungen. Basierend darauf wählt er für den nächsten Kameraschnitt eine geeignete Kameraposition aus, um die räumliche Konsistenz zwischen den Kameraschnitten so gut wie möglich aufrechtzuerhalten. Bei Szenen mit mehreren Personen passt der Agent die Kameraposition auch fein ab, um die Vollständigkeit der Personen im Bild und ihre Standbeziehungen so gut wie möglich zu gewährleisten.

Abbildung | Erzeugung eines konsistenten ersten Bildes durch 3D-Szenenankern.

Nachbearbeitung: Der Agent behandelt die Übergänge, die Musik und die Stimmanpassungen einheitlich, um die einzelnen Videosegmente zu einem Kurzfilm mit kohärentem Rhythmus und vollständiger Emotion zusammenzufügen.

Abbildung | Generierung von vielfältigen Übergangssegmenten und Planung und Mischen der Hintergrundmusik.

Wie gut ist die Effektivität?

Für die Bewertung hat das Forschungsteam einen Kurzfilm-Bewertungsstandard Short-Drama-Bench erstellt, der 7 Hauptkategorien und 17 Unterkategorien von Kurzfilmen wie Rache- und Aufstiegssagas, Realistisches Drama, Historische Palastintrigen, Kriminalromane, Zeitreise- und Wiedergeburtssagas, Süße Liebesgeschichten und Geschäftskonflikte abdeckt. Insgesamt wurden etwa 239 Minuten an Videos generiert, darunter lange, mittlere und kurze Filme. Im Vergleich zu allgemeinen Video-Standards legt dieser Standard mehr Wert auf den Erzählrhythmus und das Endprodukt von Kurzfilmen.

Um die Effektivität der Kurzfilmgenerierung umfassender zu bewerten, hat das Forschungsteam das Bewertungssystem in zwei Teile aufgeteilt: VBench misst die allgemeine Videoqualität, und ViStoryBench bewertet die Visualisierung der Erzählung. Darüber hinaus wurden 8 spezifische Kurzfilmindikatoren festgelegt, um den Einstieg und das Ende des Films, die Aufwertungseffekte, die Erzählkonsistenz, die räumliche Konsistenz zwischen den Charakteren und der Umgebung sowie die Natürlichkeit der Hintergrundmusik und der Übergänge zu untersuchen.

Betrachtet man die qualitativen Ergebnisse, zeigt sich, dass die Stärken des Agent-Frameworks nicht nur in den Indikatorwerten, sondern auch in den generierten Beispielen deutlich werden. Im Vergleich zu Basismethoden ist die visuelle Kontinuität zwischen den Segmenten stabiler, die Verbindung zwischen der Position der Personen, der Szenenanordnung und den Kamerabeziehungen ist natürlicher. Gleichzeitig entspricht der Erzählrhythmus und die Übergangsbehandlung eher den Anzeigepraktiken von Kurzfilmen, und das Endprodukt hat einen stärkeren Gesamteindruck.

Abbildung | Qualitative Beispiele.

Abbildung | Beispiel eines generierten Videos

Betrachtet man die quantitativen Ergebnisse, zeigt das Agent-Framework im Vergleich zu Methoden wie MovieAgent, ScriptAgent, StoryMem und kommerziellen Kurzfilmgenerierungsprodukten wie Toonflow in den Kurzfilm-spezifischen Indikatoren, VBench und ViStoryBench eine überlegene Leistung.

Darüber hinaus zeigen die Ablationsergebnisse, dass die verschiedenen Videoproduktionsschritte unterschiedliche Funktionen haben. Die Erzählungserstellung beeinflusst die Anziehungskraft des Einstiegs und den Handlungsverlauf, das 3D-Erste-Bild verbessert hauptsächlich die räumliche Konsistenz zwischen den Kameraschnitten, die mehrstufige Prüfung verbessert die Gesamtqualität, und die Übergänge und die Hintergrundmusik machen die Emotionen und die Übergänge natürlicher.

Abbildung | Quantitative Bewertung. Oben links: Vergleichsergebnisse auf den Standard-Videoerzeugungs- und Erzählungsvisualisierungsstandards. Unten links: Vergleichsergebnisse auf den Short-Drama-Bench-Indikatoren, einschließlich Erzählungshaken, Erzählungsflüssigkeit, Kontinuität zwischen den Segmenten und Qualität der Audio-Übergänge. Rechts: Ergebnisse der menschlichen Bewertung basierend auf denselben Kurzfilm-Bewertungsdimensionen, die die durchschnittlichen Bewertungen von 20 Annotatoren in den Benchmark-Tests zusammenfassen.

Mängel und zukünftige Richtungen

Das Forschungsteam hat festgestellt, dass das Agent-Framework in der automatischen Kurzfilmgenerierung starke Stärken gezeigt hat, aber es gibt immer noch einige praktische Einschränkungen, bevor es in großem Maßstab eingesetzt werden kann.

Beispielsweise bedeutet stärkere Kontrollierbarkeit und höhere Produktionsqualität auch höhere Generierungskosten. Die durchschnittlichen API-Kosten von "One Sentence, One Drama" betragen etwa 25 - 27 US-Dollar pro Minute, während die von Toonflow etwa 21,53 US-Dollar pro Minute betragen. In Bezug auf die Zeitkosten benötigt das Forschungsteam etwa 74 - 90 Minuten, um einen etwa 10-minütigen vollständigen Kurzfilm zu generieren. In Zukunft muss die Kostenreduktion weiterhin ein Problem sein, wenn man eine große Skaleneinsatz anstrebt.

In Bezug auf die Unterstützung für Mensch-Maschine-Kooperation basiert das aktuelle Agent-Framework hauptsächlich auf automatischer Generierung. Das Forschungsteam hat angemerkt, dass in Zukunft über eine interaktive Schnittstelle die Prüfwerte und die Diagnosefeedback an die Benutzer weitergegeben werden können: Segmente mit niedrigen Werten werden neu generiert, Segmente mit hohen Werten müssen normalerweise nicht weiter bearbeitet werden, und die Segmente in der mittleren Spanne werden von den Kreativern entschieden, ob sie angepasst werden sollen.

Darüber hinaus gibt es beim Agent-Framework noch Probleme mit der Audio-Lizenzierung. Um das Urheberrechtsrisiko zu verringern, verwendet die aktuelle Hintergrundmusikbibliothek hauptsächlich lizenzfreie oder kommerziell nutzbare Musik, was die Vielfalt der Stil- und Emotionsausdrücke einschränkt. In Zukunft, wenn es möglich ist, auf eine größere lizenzierte Musikbibliothek zuzugreifen und beim Treffen auf ein bestimmtes Liedklang eine klare Kauf- oder Lizenzoption anbieten zu können, wird das Agent-Framework auch breitere kommerzielle Anwendungsgebiete haben.

Weitere technische Details finden Sie in der Originalstudie.

Dieser Artikel stammt aus dem WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein Satz reicht, um ein komplettes Kurzstück zu generieren. Das Team der Nanyang Technological University hat ein hierarchisches Agent-Framework vorgeschlagen, und die Produktion von KI-Kurzstücken geht auf den Weg zur Standardisierung.

Wie wird ein Kurzfilm aus einem Satz erzeugt?

Wie gut ist die Effektivität?

Mängel und zukünftige Richtungen