StartseiteArtikel

Mit einem Klick können Sie sich frei in PPT-Präsentationen bewegen. Es werden gleichzeitig "Kommentaraudio + Video" generiert, und die Qualität kommt der eines echten Menschen nahe.

新智元2025-07-17 10:39
PresentAgent konvertiert automatisch Dokumente in Präsentationsvideos mit Audio und Folien, deren Qualität nahezu der menschlichen Leistung entspricht.

PresentAgent kann lange Dokumente wie Aufsätze und Berichte mit einem Klick in Präsentationsvideos mit menschlicher Stimme und synchronisierten Folien umwandeln. Der Prozess ähnelt dem eines Menschen, der einen Leitfaden erstellt, eine Präsentation macht, aufnimmt und synthetisiert. In einem Experiment wurden 30 Dokumente mit handgefertigten Videos verglichen. PresentAgent erreichte in Bezug auf Inhaltsgenauigkeit, visuelle Klarheit und das Verständnis der Zuschauer fast menschliche Niveaus und kann Lehrern und Geschäftsleuten viel Zeit bei der Erstellung von Präsentationen und Audioaufnahmen sparen.

Präsentationen sind eine weit verbreitete und wirksame Methode zur Informationstransmission. Durch die Kombination von visuellen Elementen, strukturierter Erklärung und mündlicher Erläuterung kann die Information Schritt für Schritt entwickelt werden, sodass verschiedene Zielgruppen leichter verstehen können.

Obwohl Präsentationen sehr effektiv sind, ist die Erstellung von hochwertigen Präsentationsvideos aus langen Dokumenten (wie Geschäftsberichten, technischen Handbüchern, Politikbriefings oder wissenschaftlichen Aufsätzen) normalerweise sehr arbeitsintensiv.

Dieser Prozess umfasst die Auswahl von Inhalten, das Design von Folien, das Schreiben von Skripten, die Tonaufnahme und die Integration aller Inhalte in eine kohärente multimodale Ausgabe.

Obwohl KI in den letzten Jahren Fortschritte bei der Umwandlung von Dokumenten in Folien und Text in Videos erzielt hat, besteht immer noch ein zentrales Problem: Diese Methoden können entweder nur statische visuelle Zusammenfassungen generieren oder nur unstrukturierte allgemeine Videoclips ausgeben und sind daher nicht für Präsentationen geeignet, die eine strukturierte Erzählweise erfordern.

Um diese Lücke zu schließen, haben Forscher von der Australian Artificial Intelligence Institute und der Universität Liverpool in Großbritannien eine neue Aufgabe vorgeschlagen: Document-to-Presentation Video Generation, deren Ziel es ist, strukturierte oder unstrukturierte Dokumente automatisch in Präsentationsvideos mit mündlicher Erläuterung und synchronisierten Folien umzuwandeln.

Link zum Paper: https://arxiv.org/pdf/2507.04036, Link zum Code: https://github.com/AIGeeksGroup/PresentAgent

Die Herausforderungen dieser Aufgabe gehen weit über herkömmliche Zusammenfassungs- oder Text-zu-Sprache-Systeme hinaus, da sie selektive Inhaltsabstraktion, layoutbasiertes visuelles Planning und präzise multimodale Ausrichtung von Bild und Ton erfordert.

Abbildung 1: Überblick über PresentAgent.

Abbildung 2: Dokumentenvielfalt in der Evaluationsbasis.

Im Gegensatz zu früheren Methoden, die sich nur auf die Generierung statischer Folien/Bilder oder einfache Sprachzusammenfassungen konzentrierten, zielen die Forscher darauf ab, ein vollständig integriertes Videoerlebnis zu schaffen, das der Informationsübertragung eines menschlichen Referenten in der Realität ähnelt.

Abbildung 3: Überblick über den Methodenrahmen.

Links in der obigen Abbildung werden verschiedene Eingabedokumente (z. B. Aufsätze, Websites, Blogs, Präsentationen oder PDFs) gegeben. PresentAgent kann Präsentationsvideos mit Erläuterungen generieren, wobei die Ausgabe aus synchronisierten Folien und Audio besteht.

Rechts wurde PresentEval, ein Zwei-Pfad-Evaluationsrahmen, entworfen:

(1) Objektive Quiz-Evaluation (oben), bei der Qwen-VL zur Überprüfung des faktischen Verständnisses verwendet wird;

(2) Subjektive Bewertungsevaluation (unten), bei der visuelle Sprachmodelle verwendet werden, um das Video aus den Dimensionen Inhaltsqualität, visuelles Design und Sprachverständnis zu bewerten.

Um die oben genannten Herausforderungen zu bewältigen, haben die Forscher einen modularen Generierungsrahmen - PresentAgent vorgeschlagen, wie in Abbildung 1 gezeigt.

Der Prozess umfasst:

Semantische Segmentierung des Eingabedokuments (durch Leitfadenplanung);

Generierung von visuellen Folieninhalten mit Layoutanweisungen für jedes semantische Segment;

Umformulierung der Schlüsselinformationen in mündliche Erklärungen;

Nach der Sprachsynthese wird die Zeitkoordination mit den Folien vorgenommen, und schließlich wird ein gut strukturierter und klar erklärtes Präsentationsvideo generiert.

Es ist erwähnenswert, dass der gesamte Prozess steuerbar und anpassbar an verschiedene Bereiche ist und für verschiedene Dokumenttypen und Präsentationsstile geeignet ist.

Um solche komplexen multimodalen Systeme effektiv zu evaluieren, haben die Forscher einen Testdatensatz mit 30 handgefertigten Dokument - Präsentationsvideo - Paaren aus verschiedenen Bereichen wie Bildung, Finanzen, Politik und Forschung zusammengestellt.

Zusätzlich haben die Forscher eine Zwei-Pfad-Evaluationsstrategie entworfen:

  • Einerseits wird ein festes Multiple-Choice-Test verwendet, um das Inhaltsverständnis zu überprüfen;
  • Andererseits wird ein visuelles Sprachmodell verwendet, um das Video aus den Dimensionen Inhaltsqualität, visueller Darstellung und Zuschauerverständnis zu bewerten.

Die Experimentergebnisse zeigen, dass die generierten Videos flüssig, gut strukturiert und informationsreich sind und in Bezug auf die Informationsübertragung und das Verständnis der Zuschauer fast menschliche Leistung erreichen.

Dies zeigt, dass die Kombination von Sprachmodellen, visueller Layoutgenerierung und multimodaler Synthese ein interpretierbares und erweiterbares automatisches Präsentationsgenerierungssystem ermöglichen kann.

Die Hauptbeiträge sind wie folgt:

  • Neue Aufgabe vorgeschlagen: Erstmalig die neue Aufgabe "Document-to-Presentation Video Generation" vorgeschlagen, deren Ziel es ist, strukturierte Folienvideos mit mündlicher Erläuterung aus verschiedenen langen Texten automatisch zu generieren.
  • Entwurf des PresentAgent-Systems: Ein modularer Generierungsrahmen vorgeschlagen, der die Dokumentanalyse, das layoutbewusste Folienaufbauen, die Skriptgenerierung und die Audiovideo-Synchronisierung umfasst und einen steuerbaren und interpretierbaren Videogenerierungsprozess ermöglicht.
  • Entwurf des PresentEval-Evaluationsrahmens: Aufbau eines von visuellen Sprachmodellen angetriebenen mehrdimensionalen Evaluationsmechanismus, der das Video aus den Dimensionen Inhalt, Visuelle und Verständnis mit Hinweisen bewertet.
  • Erstellung eines hochwertigen Evaluationsdatensatzes: Ein Datensatz mit 30 Paaren aus echten Dokumenten und entsprechenden Präsentationsvideos erstellt. Experimente und Ablationsstudien zeigen, dass PresentAgent nicht nur fast menschliche Leistung erreicht, sondern auch deutlich besser als bestehende Lösungen ist.

Präsentationsvideo-Evaluationsbasis

Diese Basis bewertet nicht nur die Flüssigkeit und Inhaltsgenauigkeit des Videos, sondern auch das Verständnis der Zuschauer.

Unter Bezugnahme auf die Methode von Paper2Poster haben die Forscher eine Quiz-Evaluation entworfen, bei der visuelle Sprachmodelle verwendet werden, um auf Inhaltsfragen nur anhand des generierten Videos (Folien + Erklärung) zu antworten, um das Verständnis der Zuschauer zu simulieren.

Die Forscher haben auch handgefertigte Videos als Referenzstandard eingeführt, die sowohl zur Kalibrierung der Bewertung als auch zum Vergleich mit der maximalen Leistung verwendet werden.

Wie in Abbildung 2 gezeigt, umfasst die Basis vier repräsentative Dokumenttypen (wissenschaftliche Aufsätze, Webseiten, technische Blogs und Präsentationen), von denen jedes mit einem echten handgefertigten Erklärungsvideo versehen ist und verschiedene reale Bereiche wie Bildung, Forschung und Geschäftsberichte abdeckt.

Beispiel: Objektive Quiz-Evaluation (Objective Quiz Evaluation)

Beispiel für Hinweise in der objektiven Quiz-Evaluation. Jede Multiple-Choice-Frage wurde manuell auf der Grundlage des tatsächlichen Inhalts des Quell Dokuments entworfen und zielt darauf ab, die Fähigkeiten der Themenidentifizierung, des strukturellen Verständnisses und der Extraktion von Kernaussagen zu testen, um zu evaluieren, ob das generierte Video die ursprünglichen Informationen effektiv überträgt.

Beispiel: Subjektive Bewertungsdimensionen (Subjective Scoring Prompts)

Beispiel für subjektive Bewertungshinweise, bei denen jeder Hinweis auf eine bestimmte Dimension abzielt und das visuelle Sprachmodell anleitet, das Video aus der "menschlichen Perspektive" zu bewerten. Abkürzungen: Narr. Coh. = Erzählkoherenz; Comp. Diff. = Verständnissschwierigkeit.

Die Forscher verwenden einen "einheitlichen modellgetriebenen Evaluationsrahmen", um die generierten Präsentationsvideos zu bewerten. Alle Evaluationen werden mit visuellen Sprachmodellen durchgeführt und durch Hinweise für verschiedene Dimensionen geleitet.

Dieser Evaluationsrahmen besteht aus zwei Teilen:

  1. Objektive Quiz-Evaluation: Messung der Genauigkeit der Informationstransmission des Videos durch Multiple-Choice-Fragen;
  2. Subjektive Bewertungsevaluation: Das Video wird in den Dimensionen Inhaltsqualität, visuelles/audiovisuelles Design und Verständnisklarheit mit einer Punktzahl von 1 - 5 bewertet.

Diese beiden Arten von Indikatoren bilden gemeinsam ein umfassendes Qualitätsevaluierungssystem für die generierten Videos.

Einführung in den Doc2Present-Datensatz

Um die Evaluation der Umwandlung von Dokumenten in Präsentationsvideos zu unterstützen, haben die Forscher einen realen Vergleichsdatensatz aus verschiedenen Bereichen und Stilen - Doc2Present Benchmark - erstellt, bei dem jedes Datensatzpaar ein Dokument und ein zugehöriges Präsentationsvideo enthält.

Im Gegensatz zu früheren Basen, die sich nur auf Zusammenfassungen oder Folien konzentrierten, umfasst der Datensatz Geschäftsberichte, Produktbroschüren, Politikbriefings, Tutorialdokumente usw., und jedes Dokument ist mit einer handgefertigten Videoerklärung versehen.

Datenquelle

Die Forscher haben 30 hochwertige Präsentationsvideo - Stichproben aus öffentlichen Plattformen, Bildungsressourcenbanken und professionellen Präsentationsarchiven gesammelt. Jedes Video hat eine klare Struktur und kombiniert die visuelle Darstellung von Folien und die synchronisierte mündliche Erklärung.

Die Forscher haben manuell jedes Video mit seinem Quell Dokument abgestimmt und sichergestellt, dass die Videostruktur mit dem Dokumentinhalt übereinstimmt, die visuellen Informationen auf den Folien kompakt und strukturiert sind und die Erklärung und die Folien in der Zeit gut synchronisiert sind.

Datenstatistik

Dokumentlänge: ca. 3.000 - 8.000 Wörter

  • Videolänge: 1 - 2 Minuten
  • Anzahl der Folien: 5 - 10 Seiten

Diese Einstellung betont die Kernherausforderung der Aufgabe: Wie kann der dichte, bereichsspezifische Dokumentinhalt in ein einfaches und verständliches multimodales Präsentationsformat umgewandelt werden?

PresentEval

Um die Qualität der generierten Präsentationsvideos zu evaluieren, haben die Forscher zwei komplementäre Evaluationsstrategien verwendet: Objektive Multiple-Choice-Evaluation (Objective Quiz Evaluation) und subjektive Bewertung (Subjective Scoring), wie in Abbildung