Wie beurteilt man die Echtheit von KI-Videos? Ein Überblick über dynamische, rückverfolgbare und erklärbare Erkennungssysteme

Die rasant fortschreitende KI-Videogenerierungstechnologie führt zu einer stetig steigenden Realitätsnähe der erzeugten Inhalte, sodass bestehende Erkennungsmethoden den Anforderungen nicht mehr gerecht werden. Der neueste Übersichtsartikel stellt das neue Ziel der „Faktentreueprüfung“ vor und entwickelt aus der doppelten Perspektive von Vision und Sprache ein vierstufiges Erkennungsrahmenwerk, das untere Ebene Hinweise, raumzeitliche Konsistenz, crossmodale Überprüfung und Wissensschlussfolgerung über die Welt umfasst und die Kopplung mehrschichtiger Beweise sowie die Erklärbarkeit betont.

In den letzten zwei Jahren hat sich das Videoerzeugungsmodell rasant weiterentwickelt. Vom beeindruckenden Effekt von Sora bei seiner Veröffentlichung Ende 2024 bis hin zu Modellen wie Google Veo, Sora 2, der Kling - Serie und Seedance 2.0 Anfang dieses Jahres hat die Qualität von AI - generierten Videos einen qualitativen Sprung gemacht. Es können nun Videos in Filmqualität mit mehreren Personen und komplexen Szenen über mehrere Minuten hinweg erzeugt werden.

Im Gegensatz zu dieser rasanten Entwicklung auf der Erzeugungsseite ist die Aufmerksamkeit der Forschungsgemeinschaft auf die Detektion von AI - Videos eher mäßig.

In der Realität lässt sich jedoch leicht beobachten, dass die multimodalen Eigenschaften von Videos, die eine viel größere Täuschungspotenzial als Bilder haben, enorme soziale Auswirkungen haben:

Auf verschiedenen sozialen Plattformen tauchen immer häufiger gefälschte AI - generierte Videos auf, und sowohl die Anzahl, die Qualität als auch die Reichweite dieser Videos nehmen stetig zu. Wenn Benutzer Basismodelle wie Grok oder Doubao fragen, ob ein Video AI - generiert ist, erhalten sie oft nur ja - nein - Aussagen, die weder interpretierbar noch vertrauenswürdig sind. Auf Plattformen wie Xiaohongshu werden jedoch häufig echte Videos als "vermutlich AI - generiert" markiert.

Es besteht eine enorme Kluft zwischen der schnellen Entwicklung auf der Erzeugungsseite und dem Mangel an Aufmerksamkeit auf der Detektionsseite. Wir müssen uns daher fragen, wie weit die Forschung zur Detektion von AI - generierten Videos fortgeschritten ist, welchen Paradigmenwechsel sie derzeit durchmacht und in welche Richtung sie in Zukunft gehen sollte.

Vor diesem Hintergrund haben Forscher aus MBZUAI, der Renmin-Universität China und der Harvard-Universität eine fünfzigseitige Übersichtsarbeit verfasst und veröffentlicht. In dieser Arbeit wird erstmals ein technischer Weg von der niedrigschichtigen visuellen Wahrnehmung zur hochschichtigen weltweiten Inferenz aus visueller und sprachlicher Perspektive aufgezeigt. Basierend auf diesem Weg wird ein dynamisches, nachvollziehbares und interpretierbares Vertrauensdetektionssystem mit mehrschichtiger Evidenzkopplung analysiert. Die Arbeit wurde bereits von der ACL 2026 akzeptiert.

Link zur Publikation: https://www.researchgate.net/doi/10.13140/RG.2.2.31713.88168

Link zu GitHub: https://github.com/dxhou/AI - Generated - Video - Detection

Link zur Homepage: https://AIgcvdetection.github.io

Ziel der Neuformulierung der Detektion von AI - generierten Videos

Abbildung 1 | Vollständiger Prozess der Detektion von AI - generierten Videos: Erzeugungsseite, Detektion aus zwei Perspektiven bis zur Evidenzsammlung

Vor dem Aufstieg der generativen KI hinterließen AI - generierte Videos relativ deutliche visuelle Artefakte. Auf dieser Grundlage war in den frühen Deepfake - Szenarien, die durch Gesichtswechsel repräsentiert wurden, die Überprüfung auf der Seite der rahmenbasierten visuellen Wahrnehmung ausreichend effektiv.

In den letzten zwei Jahren hat die Qualität von Videos im Zeitalter der rasanten Entwicklung der generativen KI diesen "Prämisse" allmählich überschritten. Das menschliche Auge kann zunehmend nicht mehr unterscheiden, ob ein reales und komplettes Video echt oder gefälscht ist. In diesem Fall genügt die Detektion, die nur eine binäre Klassifizierung ausgibt, nicht mehr. Es muss nun gefragt werden: Welche Evidenz liegt dem Detektor zugrunde, um eine vertrauenswürdige Beurteilung zu treffen?

Diese Übersichtsarbeit verschiebt zunächst die Grenzen des Detektionsproblems: Sie weist darauf hin, dass die Detektionsausgabe von einer binären Klassifizierung in "wahr" oder "falsch" zu einer interpretierbaren und vertrauenswürdigen strukturierten Beurteilung übergehen muss, um das Detektionsobjekt auf die Überprüfung der Lücke zwischen der "virtuellen Welt" und der "realen Welt" in Videos auszurichten.

Daher definiert die Übersichtsarbeit zunächst das Detektionsziel neu als "Faktengetreueüberprüfung", d. h. die Überprüfung, ob die Aussagen über "wer, wann, wo und was passiert ist" im Videoinhalt sowohl in der Wahrnehmung als auch in der Kognition mit der realen Welt übereinstimmen. Neben der Überprüfung zwischen visuellen und modalen Aspekten muss weiter beurteilt werden, ob die im Videoinhalt enthaltenen Aussagen mit externen "Fakten, physikalischen Gesetzen und Weltwissen etc." in Konflikt stehen.

Detektionsobjekte, drei Paradigmen von AI - generierten Videos

Abbildung 2 | Drei Arten von AI - generierten Video - Paradigmen, definiert in dieser Übersichtsarbeit

Seit 2020 hat die AI - Videoerzeugung einen Paradigmenwechsel erfahren: Von der lokalen Videoänderung durch GAN in der frühen Deepfake - Zeit über die Neuorganisation von Ton und Bild wie Mundbewegungen und Stimme bis hin zur vollständigen Synthese von AI - Videos, die von einem "Welt - Simulator" wie Sora unterstützt wird, der durch latent - space Diffusionsmodelle ermöglicht wird. Die Übersichtsarbeit teilt AI - generierte Videos in die folgenden drei Paradigmen ein:

Lokal manipulierte Videos mit realem Träger (Local Manipulation Video, LMV)

LMV war lange Zeit das typischste und am besten entwickelte Paradigma in der traditionellen Deepfake - Detektion. Bei diesen Videos wird ein lokaler Bereich eines real aufgenommenen Videos bearbeitet, z. B. durch Gesichtswechsel oder Hintergrundänderung. Der Großteil der Struktur des Originalvideos, wie Szene, Körperbewegungen, Kamerabewegungen und Beleuchtungsverhältnisse, bleibt jedoch normalerweise erhalten. Daher konzentrierten sich die meisten frühen Methoden auf die Erkennung von lokalen Artefakten, Frequenzbereichseigenschaften, geometrischen Anomalien und Bereichskonsistenz. Da die Generativmodelle jedoch immer besser werden, lokale Bereiche zu integrieren, die Beleuchtung anzupassen und Identitäten zu übertragen, und da die Plattformverarbeitung und die sekundäre Verbreitung viele kleine Spuren weiter auslöschen, wird die Detektion des LMV - Paradigmas zunehmend auf die Robustheit der Detektionsmethoden in verschiedenen Szenarien gerichtet.

Audio - visuelle Bearbeitung unter multimodaler Kopplungsbeschränkung (Audio - Visual Editing, AVE)

Das AVE - Paradigma hat sich hauptsächlich 2024 entwickelt. Bei diesen AI - generierten Videos werden die bereits bestehenden Korrespondenzen zwischen Bild, Ton, Mundbewegungen, Sprecheridentität, Sprechrhythmus und Untertitelinhalt verändert. Dazu gehören die Stimme - gesteuerte Gesichtssynthese, die Neuvertonung des Originalvideos, die Änderung der Mundbewegungen und der Sprecher. Dies erfordert, dass die Detektion von der Betrachtung von visuellen Artefakten zur Überprüfung der Beziehungen zwischen den verschiedenen Modalitäten im Video übergeht, um die wirklich aussagekräftigen Hinweise zu finden, indem Ton, Mundbewegungen, Identität und Inhalt zusammen betrachtet werden.

End - to - End generative Video - Synthese (Generative Video Synthesis, GVS)

Im 2025 aufkommenden GVS - Paradigma erzeugt das Modell direkt ein ganzes Video basierend auf Bedingungsinformationen wie Text, Bildern und Rauschen, ohne auf ein reales Video als Grundlage zurückzugreifen. Dies stellt eine völlig neue Herausforderung für die Detektion dar.

Diese Videos sehen normalerweise in einem einzelnen Frame oder über kurze Zeiträume hinweg sehr real aus, weisen jedoch in der langen Zeitraumsequenz oft Lücken auf: Beispielsweise können die Bewegungen einer Person oder ihre Position in der Szene nicht miteinander verbunden werden, die Form oder Bewegung von Objekten ändern sich in einem nicht physikalisch sinnvollen Weg, oder die Ereignisse im Video können in der realen Welt nicht stattfinden.

Dementsprechend kann die Detektion des GVS - Paradigmas nicht auf die lokale und intermodale Konsistenz beschränkt bleiben, sondern muss auf eine höhere Ebene gehen. Es muss die Langzeitkonsistenz, das Allgemeinwissen, die physikalischen Gesetze, die Erzählung und die Kausalität, die Wahrheit und die Nachvollziehbarkeit auf Satzebene usw. berücksichtigt werden, um zu überprüfen, ob der Inhalt in der langen Zeitraumsequenz vertrauenswürdig ist und ob der Videoinhalt auf allen Ebenen in der realen Welt möglich ist.

Vierstufiges Spektrum von Detektionsmethoden aus visueller und sprachlicher Perspektive

Abbildung 3 | Vierstufiges Framework aus visueller und sprachlicher Perspektive: Die ersten beiden Stufen sind eher visuell orientiert, die letzten beiden gehen in die sprachliche Perspektive über

Derzeit hat sich die Modalitätsperspektive bei der Detektion von AI - generierten Videos aufgeteilt und kann in zwei Kernwissenschaftsprobleme unterteilt werden: Die erste Kategorie geht von der visuellen Modalität aus und konzentriert sich auf die Aufzeichnung von unteren Signalen und die raumzeitliche Konsistenz des Bildes.

Die andere Kategorie geht von der sprachlichen Modalität aus und bezieht sich auf die intermodalen sprachlichen Informationen im Video. Die Fragen sind: "Wird das Video in den verschiedenen Modalitäten gut übereinstimmend erzählt?" und "Kann der Inhalt des Videos den Prüfungen durch externes Wissen, Fakten und Gesetze in der realen Welt standhalten?"

Die Übersichtsarbeit erfasst diesen Wandel und schlägt vor, die Forschungsmethoden und Bewertungsparadigmen für die Detektion von AI - generierten Videos aus visueller und sprachlicher Perspektive zu organisieren. Auf dieser Grundlage wird ein vierstufiges Methodenbild von der niedrigen Wahrnehmung zur hohen Kognition vorgeschlagen.

Es umfasst die folgenden vier Stufen:

Schicht 1, Grundlegende visuelle Hinweise (Intrinsic Cues Analysis): Das erste Sieb

Die Methoden in Schicht 1 befassen sich mit den folgenden Forschungsfragen: Stimmt das Video auf der Ebene der unteren visuellen Signale mit den statistischen Gesetzen überein, die ein echtes Video erfüllen muss? Gibt es im Video untere Hinweise, die durch die Erzeugung oder Bearbeitung mit einem AI - Modell eingeführt wurden?

Bei den unteren Signalen erfüllt ein echtes Video bestimmte statistische Eigenschaften und stimmt natürlich mit dem Aufnahme -, Codierungs - und Nachbearbeitungsprozess überein. Der Prozess der AI - Erzeugung hinterlässt jedoch oft Hinweise, die von der Verteilung eines echten Videos abweichen, wie ein einheitliches Stilmuster, Wasserzeichen und Artefakte des Modells sowie unnatürliche physiologische Signale, die erkannt werden können. Die Methoden in der ersten Schicht gehen von der visuellen Perspektive aus und führen die Aufzeichnung durch die Modellierung, Extraktion und Verstärkung dieser unteren Signale durch. Dazu gehören die Detektion von:

Pixel - und geometrischen Anomalien wie Frequenzbereich, Textur, Rand und Rauschmuster;

Physiologischen Signalen auf dem Gesicht wie Pulskopplung, winzige Muskelbewegungen und Blinkrhythmus;

Systematischen Abweichungen zwischen echten und gefälschten Videos im Merkmalsraum.

Schicht 2, Raumzeitliche Konsistenz (Spatiotemporal Consistency): Prüfung, ob ein Video "fließend" ist

Die Methoden in Schicht 2 befassen sich mit dem Konzept der "raumzeitlichen Sequenzkombination mehrerer Frames in einem Video". Die Forschungsfrage lautet: Erfüllt der Bildstrom des Videos in der Raumzeitdimension die Eigenschaften, die der Bewegungsprozess von Objekten in einem echten Video erfüllen muss? Ein echt aufgenommenes Video ist auf kontinuierliche Kamerabahnen und reale Umgebungsbedingungen beschränkt. Die Haupt - und Hintergrundbilder zwischen benachbarten Frames zeigen ein kontinuierliches und vorhersehbares raumzeitliches Änderungsmuster, das der physikalischen Machbarkeit und der Kamerabewegung entspricht. AI - generierte Videos können jedoch in der langen Zeitsequenz raumzeitliche Diskontinuitäten wie Verzerrungen von Objekten oder Hintergrund, plötzliche Unschärfe in lokalen Bereichen des Bildes usw. aufweisen. Dazu gehören die Detektion von:

Zeit - und Bewegungsinkonsistenzen wie lokale Objektverformungen, Hintergrundverschiebungen, plötzliche Unschärfe und Bewegungsresiduenanomalien;

Menschliches Verhalten und Interaktionsdynamik wie Gesichtsausdruckänderungen, Identitätsdynamik und Interaktionsrhythmus zwischen den Personen im Bild;

Physikalische und Frequenzanomalien in Bezug auf die Zeitfrequenz und die Bildkontinuität.

Schicht 3, Intermodale Konsistenz (Cross - Modal Consistency): Intermodale Überprüfung innerhalb des Videos

Schicht 3 ist ein sehr wichtiger Wendepunkt im gesamten Framework: Die Detektion geht in die intermodale Überprüfung innerhalb des Videos über. Die Forschungsfrage lautet: Stimmen die verschiedenen Modalitäten wie Bild, Ton und Untertitel in allen Ebenen überein und erzählen sie dasselbe?

In einem echten Video stimmen die Modalitäten wie Audio, Text und Bild oft sehr gut überein. Bei AI - generierten Videos können jedoch systematische Fehlanpassungen zwischen Mundbewegungen und Stimme, Identität und Sprachmuster, Bild und Text auftreten. Die Methoden in der dritten Schicht führen eine feingrainede und mehrdimensionale Analyse der Intermodalk