Künstliche Intelligenz: Sofortiges "Ausschneiden" des gewünschten Teils in Echtzeitvideos und Verständnis von Texten, Bildern oder Videoclips

Suchen Sie keine halbe Ewigkeit nach bestimmten Ereignissen in Echtzeitvideos.

Suchen Sie noch stundenlang nach bestimmten Ereignissen in der Echtzeit-Videoübertragung? Die neueste Technologie gibt Ihnen einen unfairen Vorteil.

Stellen Sie sich vor, in einer Sicherheitsüberwachung flitzen mehrere Schatten vorüber. Mit der neuen Technologie können Sie in Sekundenschnelle das genaue Segment des “verdächtigen Zusammenschlusses” abrufen.

△ Das Bild wurde mit KI generiert.

Im VR-Trainingsbereich tragen Sie VR-Brillen und üben Basketballwürfe. Geben Sie im Voraus in der Mobil-App ein: “Lokalisieren Sie Aktionen, die mit der Videovorlage (Steph Currys perfekter Dreierwurf) übereinstimmen”. Wenn das Training beginnt, analysiert die Brille im Hintergrund den Videostream aus erster Person bei jedem Wurf. Wenn Sie einen Wurf machen, dessen Bewegung, Kraftangriff und Bogen denen von Currys perfekten Dreierwurf ähneln, markiert die Brille sofort dieses Segment im virtuellen Interface.

△

Keine Verschleierung: Dies ist die neue Aufgabe, die von einem Forschungsteam der Shenzhen-Ruhr-Universität und der Universität Adelaide vorgeschlagen wurde.

Es heißt Online-Video-Lokalisierung mit hybriden Modusabfragen (Online Video Grounding with Hybrid-modal Queries, OVG-HQ).

Einfach ausgedrückt, kann diese Technologie es dem System ermöglichen, während der Live-Übertragung oder Aufzeichnung basierend auf verschiedenen “Hinweisen”, einschließlich Text, Referenzbildern, Videovorlagen oder Kombinationen davon, sofort das interessierende vollständige Ereignis im Echtzeit-Videostream zu finden und präzise auszuschneiden.

Die Studie wurde in der ICCV2025 aufgenommen.

Die bisherigen Methoden haben zwei Nachteile:

“Offline” ist ein schwerwiegender Mangel: Die gängigen Technologien können erst arbeiten, wenn das Video aufgezeichnet ist. Eine nachträgliche Analyse ist wie ein Nachhineinurteil und kann die dringenden Anforderungen der Sicherheitstechnik (“Sekundenreaktion”), der Live-Übertragung (“sofortige Wiederholung”) und der VR-Trainings (“Echtzeitrückmeldung während des Trainings”) nicht erfüllen.

“Mangel an Worten” ist eine Schwäche: Nur mit einer Textbeschreibung (z. B. “Zusammenschluss”, “Hieb”, “perfekter Dreierwurf”) ist es schwierig, die feinen Unterschiede in der visuellen Welt präzise zu definieren. Kraftangriffspunkte, Lichtdetails, räumliche Muster … oft lässt sich das nur “intuitionell verstehen”.

Wie löst OVG-HQ diese Probleme?

Wie wird das erreicht?

Das Team erklärt, dass das System zwei Hindernisse überwinden muss, um “präzise Lokalisierung + Verständnis von multimodalen Informationen” zu erreichen:

Herausforderung 1: Dauerhafte Aufbewahrung historischer Informationen in einem Stream-Szenario

Beim Echtzeitverarbeiten des Videostreams muss das Modell sicherstellen, dass die historischen Schlüsselinformationen nicht verloren gehen. Andernfalls wird das Start- und Endpunkt des Ereignisses fehlinterpretiert, wenn frühe Bewegungs- oder Szenenmerkmale vergessen werden.

Herausforderung 2: Ungleichmäßige Verteilung der Abfragemodi

Derselbe Benutzerwunsch kann einer 5-Sekunden-Video (viel Informationen) entsprechen oder auch nur einem Bild mit niedriger Auflösung oder einem kurzen Text (wenig Informationen). Der deutliche Unterschied zwischen starken und schwachen Modi kann dazu führen, dass das Modell übermäßig auf starke Modi angewiesen ist und die Informationen der schwachen Modi nicht ausreichend nutzt, was die Genauigkeit der Integration mehrerer Informationsquellen beeinträchtigt. Es ist extrem schwierig, ein einheitliches Modell zu entwickeln, das alle Modalkombinationen gleichmäßig verarbeiten kann.

Um diese Probleme systematisch zu untersuchen, hat das Team die QVHighlights-Daten zusammengetragen und das erste Benchmark-Set QVHighlights-Unify für die Online-Lokalisierung mit hybriden Modi erstellt, indem es vier Abfrageelemente ergänzt hat:

Suchbild: Simuliert, dass der Benutzer ein Referenzbild aus der Suchmaschine bezieht.

Generiertes Bild: Simuliert, dass der Benutzer ein Referenzbild mit einem Text-zu-Bild-Modell erstellt.

Generiertes Segment: Simuliert, dass der Benutzer ein Referenzvideo mit einem Text-zu-Video-Modell erstellt.

Komplementärer Text-Bild-Paar: Simuliert, dass der Benutzer ein Bild und einen Text verwendet, um seinen Wunsch zu erklären (beide sind erforderlich).

Insgesamt 71.6K Abfragesätze, die 8 Modalkombinationen abdecken, bilden das erste einheitliche Bewertungsbenchmark für die Online-Lokalisierung mit hybriden Modi.

Für die beiden Herausforderungen hat das Team zwei Kernkomponenten entwickelt:

1. Parametrisierter Gedächtnisblock (PMB)

Schritt 1: Speichern der aktuellen Eingabe: Über die Parameter des Gedächtnisblocks wird die aktuelle Eingabeinformation in die Gedächtnisparameter komprimiert, und es wird eine Selbstüberwachungsstudie mit Rekonstruktionsverlusten durchgeführt. Die Gedächtnisparameter werden durch Gradientenabstieg aktualisiert, um sowohl die aktuelle als auch die historische Information zu speichern.

Schritt 2: Verstärkung der Eingabe durch das Gedächtnis: Die aktualisierten Gedächtnisparameter werden verwendet, um die aktuelle Eingabe zu verstärken. Zuerst wird die Eingabe über eine Projektionsschicht abgebildet, dann in den Parameter-Gedächtnisblock eingegeben, und schließlich wird durch die Schichtnormalisierung und Projektionsoperation eine verstärkte Darstellung ausgegeben, die von den nachfolgenden Modulen verwendet wird.

2. Hybrid-Modaldestillation (Hybrid-modal Distillation)

Schritt 1: Training eines Expertenmodells für modale Kombinationen mit reichhaltigen Informationen (Text + generiertes Segment).

Schritt 2: Führung der Studentenmodelle anderer Modi mit den Ausgaben des Expertenmodells als Weichlabels, um schließlich ein allgemeines Modell zu erhalten, das 8 Modalkombinationen einheitlich verarbeiten kann.

Wie gut sind die experimentellen Ergebnisse?

Offline-Metriken befassen sich nur damit, “ob es richtig ist”, nicht damit, “wie schnell es ist”. Um die Echtzeitfähigkeit zu messen, hat das Team den Zeitabfallfaktor β eingeführt: Wenn die Vorhersage genau am Ende des markierten Segments trifft, ist β = 1. Wenn die Vorhersagezeit später als das markierte Endzeitpunkt ist, nimmt β linear ab und fällt nach Überschreiten der Schwelle auf 0. Auf dieser Grundlage wurden zwei Online-Metriken entwickelt:

oR@n (Online Recall@n): Wenn in den top n vorhergesagten Segmenten mit der höchsten Zuverlässigkeit mindestens eines das markierte Segment trifft, wird β basierend auf der Verzögerung des getroffenen vorhergesagten Segments berechnet.

omAP (Online mAP): Jedem vorhergesagten Segment wird ein Zeitrabattpunkt zugewiesen. Je länger die Verzögerung, desto niedriger der Punkt.

Beide Metriken verlangen “schnell und präzise”, was den Anforderungen von Sicherheitsüberwachung, Live-Übertragung und anderen Szenarien entspricht.

Die experimentellen Ergebnisse zeigen, dass nach der Hybrid-Modaldestillation die Leistung des Modells bei der Verarbeitung schwacher Modi deutlich verbessert wird: Image-R steigt um 8,98 %, Image-G um 9,35 %.

Der parametrisierte Gedächtnisblock funktioniert besser als ATT und LSTM. Nehmen wir die Abfrage mit generierten Videos (Segment-G) als Beispiel: PMB (20,13 %) > LSTM (17,41 %) > ATT (11,85 %).

Zusammenfassend lässt sich sagen, dass die OVG-HQ-Aufgabe, der QVHighlights-Unify-Datensatz, der PMB-Block und die Strategie der Hybrid-Modaldestillation zusammen ein neues Paradigma für das Echtzeitverstehen von Videos skizzieren: “Der Benutzer gibt beliebige Hinweise, und das System lokalisiert in Echtzeit das vollständige Ereignis im aktuellen Videostream.” Dies beschleunigt nicht nur die Sicherheitswarnung, die Sport-Live-Wiederholung und die VR-Trainingsrückmeldung, sondern eröffnet auch neue Vorstellungsmöglichkeiten für Szenarien wie Smart Home, industrielle Qualitätsprüfung und autonomes Fahren.

Autoren und Institutionen

Zeng Runhao (Shenzhen-Ruhr-Universität), Mao Jiaqi (Universität Shenzhen), Lai Minghao (Universität Shenzhen), Minh Hieu Phan (Universität Adelaide), Dong Yanjie (Shenzhen-Ruhr-Universität), Wang Wei (Shenzhen-Ruhr-Universität), Chen Qi (Universität Adelaide), Hu Xiping (Shenzhen-Ruhr-Universität)

Link zur Studie: https://arxiv.org/abs/2508.11903

Dieser Artikel stammt aus dem WeChat-Account “Quantum Bit”, Autor: OVG-HQ-Team. Veröffentlicht von 36 Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Künstliche Intelligenz kann in Echtzeitvideos sofort den gewünschten Teil "ausschneiden". Sie versteht sofort, wenn Sie Texte, Bilder oder Videoclips eingeben.

Wie wird das erreicht?

Wie gut sind die experimentellen Ergebnisse?

Autoren und Institutionen