Die Genauigkeit ist halbiert. Sobald die visuelle Fähigkeit großer Sprachmodelle ins Spiel kommt, "versagt" sie im Alltag.
Wir sind es gewohnt, dass KI auf dem Bildschirm geschwätzt und wunderschöne Bilder generiert hat, als ob sie alles wüsste. Aber wenn man sie in eine echte Operationssäle "wirft" und sie aus der Perspektive des leitenden Chirurgen entscheiden lässt, welches Werkzeug als nächstes verwendet werden soll, würde diese "Klassenkönigin" wahrscheinlich direkt in Verlegenheit geraten.
Um solche Probleme anzugehen, hat das Team des EgoCross-Projekts sich auf die Evaluierung von Fragen und Antworten in First-Person-Videos über verschiedene Domänen hinweg konzentriert. Das neue Arbeitssystem zeigt die Generalisierungseinschränkungen bestehender MLLMs in Szenarien wie Chirurgie, Industrie, Extremsport und Tierperspektive auf.
Derzeit konzentrieren sich die meisten First-Person-Video-Benchmarks auf alltägliche Aktivitäten und ignorieren die großen Domänenunterschiede in realen Anwendungen.
Ein Forschungsunternehmen aus der Ostchina Normal University und INSAIT hat erstmals den First-Person-Video-Fragen-Antwort-Benchmark EgoCross für verschiedene Domänen vorgeschlagen. Dieser Deckt 4 hochwertige Fachbereiche ab und enthält fast tausend hochwertige Fragen-Antwort-Paare. Gleichzeitig werden zwei Bewertungsformate, nämlich die geschlossene Prüfung (CloseQA) und die offene Prüfung (OpenQA), angeboten, was die Bewertungs-Lücke in diesem Bereich vollständig schließt.
Zugleich hat das Team durch umfassende Tests von 8 führenden MLLMs die Schwächen der bestehenden Modelle bei der Generalisierung über verschiedene Domänen hinweg aufgedeckt und das Verbesserungspotenzial von Methoden wie supervised fine-tuning (SFT) und reinforcement learning (RL) bestätigt.
Derzeit wurde diese Studie in die AAAI 2026 aufgenommen, und alle Datensätze und Codes wurden vollständig Open-Source gemacht.
Den alltäglichen "Komfortzonen" entkommen
Egocentric Video Question Answering (EgocentricQA) hat das Ziel, dass das Modell bei der Eingabe eines "First-Person-Videos + Frage" eine korrekte Antwort in natürlicher Sprache gibt.
Es hat viele Fortschritte in diese Richtung gegeben, aber fast alle Studien haben die Modelle nur in alltäglichen Szenarien evaluiert: Kochen, Gemüse schneiden, Zimmer aufräumen...
In der Realität kommen die herausfordernderen Szenarien oft aus folgenden Bereichen:
Chirurgie: Hier muss man nicht nur "Schnittwerkzeuge" erkennen, sondern auch feine Instrumente wie "Greifzangen", "Skalpelle" und "Bipolare Pinzetten" unterscheiden. Gleichzeitig ist der Operationsablauf lang und riskant, und die Risiken bei Fehlern bei der Erkennung und Vorhersage sind enorm; Industrie: Dies betrifft komplexe Reparaturabläufe von Leiterplatten und die Erkennung feiner Objekte; Extremsport: Die First-Person-Kamera vibriert stark, die Perspektive wechselt häufig, und das Bild ist stark verschwommen; Tierperspektive: Die Kamera bewegt sich unregelmäßig mit dem Tier, und die Blickhöhe und das beobachtete Gebiet unterscheiden sich völlig von denen des Menschen.
Diese Szenarien unterscheiden sich in visueller Stil und semantischem Inhalt stark von "alltäglichen Hausarbeiten" und bilden eine natürliche Domänenverschiebung (domain shift).
Dies führt zu den Kernfragen dieser Studie: ✦ Können die bestehenden MLLMs, die in alltäglichen Szenarien gut abschneiden, auch in diesen unbekannten Bereichen zuverlässig sein? ✦ Wenn nicht, wo liegt das Problem? Und wie kann es verbessert werden?
Ein Benchmark, drei große Beiträge
1. Der erste First-Person-Video-Fragen-Antwort-Benchmark für verschiedene Domänen
Es wurden vorsichtig vier Fachbereiche mit praktischem Anwendungswert ausgewählt: Chirurgie, Industrie, Extremsport und Tierperspektive
Ein Datensatz mit 957 Fragen-Antwort-Paaren wurde erstellt, der 15 feingranulierte Aufgabenarten abdeckt
Für jedes Fragen-Antwort-Paar werden sowohl das offene (OpenQA) als auch das geschlossene (CloseQA) Format angeboten
2. Umfassende Modellbewertung und -analyse
Es wurden 8 der neuesten multimodalen Large Language Models evaluiert, darunter geschlossene Modelle wie GPT-4.1 und Gemini 2.5 Pro sowie Open-Source-Modelle wie Qwen2.5-VL und VideoLLaMA3
Die Experimente zeigen, dass selbst das beste Modell in Szenarien über verschiedene Domänen hinweg eine Accuracy von weniger als 55% in CloseQA (25% bei reinem Raten) und weniger als 35% in OpenQA erreicht
Es wurde eine eingehende Analyse von verschiedenen Dimensionen wie Aufgabenart, Domänenverschiebung und Modellarchitektur durchgeführt
3. Vorausschauende Verbesserungsstudie
Es wurden Techniken wie Prompt Learning, supervised fine-tuning (SFT) und reinforcement learning (RL) erforscht
Es wurde festgestellt, dass die RL-Methode die deutlichste Leistungssteigerung bringt (im Durchschnitt 22%)
Dies gibt eine Richtung für die zukünftige Entwicklung von Modellen mit stärkerer Generalisierungsfähigkeit
Details zu EgoCross: Wie werden die "Fachaufgaben" für die vier Bereiche erstellt?
EgoCross hat Videos aus fünf hochwertigen Open-Source-Datensätzen ausgewählt, die vier Fachbereiche abdecken. In jedem Bereich wurden vier Kernaufgabenarten entworfen: Erkennung (Identification), Lokalisierung (Localization), Vorhersage (Prediction) und Zählung (Counting), insgesamt 15 Teilaufgaben, um die Fähigkeiten des Modells umfassend zu evaluieren.
Erkennung (Identification): Zum Beispiel die Erkennung von Handlungssequenzen und die Erkennung der dominanten Handgegenstände. Zum Beispiel "Welches Tier ist im Video zu sehen?" "Welches Instrument ist während der Operation nicht aufgetaucht?"
Lokalisierung (Localization): Dies umfasst die zeitliche und räumliche Lokalisierung. Zum Beispiel "Wann hat der Bediener erstmals den Oszilloskop berührt?" "In welchem Bereich des Bildes befindet sich der Schraubendreher?"
Vorhersage (Prediction): Zum Beispiel die Vorhersage der nächsten Handlung, Richtung oder Phase. Zum Beispiel "Was kommt nach der Operationsvorbereitung?" "Welche Richtung hat der nächste Extremsportvorgang?"
Zählung (Counting): Die Fähigkeit, dynamische Objekte zu zählen. Zum Beispiel "Wie viele verschiedene Komponenten sind im Video sichtbar?"
Experimente zeigen, dass die Modelle "nicht zurechtkommen"
Die Experimente des Forschungsteams haben einige Schlüsselerkenntnisse ergeben:
Der Domänenunterschied ist erheblich: Die Accuracy der Modelle bei alltäglichen Aktivitäten (EgoSchema) beträgt 73.58%, fällt aber in den EgoCross-Szenarien über verschiedene Domänen hinweg auf 43.14% ab
Die Fachbereiche sind herausfordernder: Die Industrie- und Extremsportbereiche stellen die größten Herausforderungen für die Modelle dar, während die Tierperspektive relativ einfacher ist
Die Aufgabenart hat einen Einfluss: Vorhersageaufgaben (z. B. die Vorhersage der nächsten Aktion) fallen stärker ab als Basiserkennungsaufgaben
Es gibt Unterschiede in der Modellleistung: Allgemeine Large Language Models (Gemini 2.5 Pro) sind besser als Modelle, die speziell für First-Person-Videos trainiert wurden, was zeigt, dass die gegenwärtigen Methoden zur Anpassung an die Domäne beschränkt sind
Vorausschauende Verbesserungsversuche
"*" steht für die Baseline ohne vLLM-Beschleunigung. Da die vLLM-Beschleunigung zu einer leichten Leistungseinbuße führt, ist sie in Grau markiert.
Das Forschungsunternehmen hat drei Verbesserungsmethoden erforscht:
Prompt Learning: Die Modellparameter werden nicht geändert, sondern nur während der Inferenzphase domänenspezifische Hinweise und Beispiele hinzugefügt. Beispielsweise wird vor der Frage "Dies ist ein Video aus der Chirurgie/Industrie/Extremsport/Tierperspektive. Bitte beantworte in Bezug auf die Merkmale dieses Bereichs" hinzugefügt, um die vorhandene Fähigkeit des Modells zur Generalisierung über verschiedene Domänen hinweg zu nutzen.
Supervised fine-tuning (SFT): Basierend auf Qwen2.5-VL-7B wurden alle Parameter auf einer kleinen Menge von annotierten Video-Fragen-Antwort-Daten im Zielbereich feinjustiert, um die Modellparameter an die Verteilung der neuen Domäne anzupassen. Im Industriebereich hat die Feinjustierung im Vergleich zur Baseline eine nahezu 20%-ige Leistungssteigerung gebracht.
Reinforcement learning (RL): Ein RL-Framework wurde auf der Grundlage von GRPO (Generative Reward-based Policy Optimization) aufgebaut. Konkret wurde für jede Frage mehrere Kandidatenantworten (ca. 8 pro Stichprobe) gesampelt, und dann wurde ein Reward-Modell verwendet, um zu entscheiden, ob die Antwort richtig ist und sie zu bewerten. Dies wurde als Reward-Signal verwendet, um die Strategie von Qwen2.5-VL-7B zu optimieren. RL bringt im Durchschnitt eine Steigerung der CloseQA-Accuracy von etwa 22 Prozentpunkten in den vier Bereichen, was die effektivste Methode unter den drei ist.
Diese Studien haben erstmals die Grenzen der Fähigkeiten der gegenwärtigen Large Language Models aufgezeigt und wertvolle Erkenntnisse für die zukünftige Entwicklung von multimodalen Systemen mit stärkerer Generalisierungsfähigkeit geliefert.
Es scheint, dass es noch viel Zeit und Arbeit braucht, um einen KI-Assistenten zu entwickeln, der nicht nur Hausarbeiten erledigen kann, sondern auch in Fachbereichen zuverlässig ist. Schließlich ist die reale Welt weitaus größer als eine Küche.
Link zur Studie: https://arxiv.org/abs/2508.10729
Projekt-Website: https://github.com/MyUniverse0726/EgoCross
Challenge-Website: https://egocross-benchmark.github.io/
Dieser Artikel stammt aus dem WeChat-Account "Liangziwei", Autor: EgoCross-Team, veröffentlicht von 36Kr mit Genehmigung.