StartseiteArtikel

Im Millisekundenbereich, das schnellste Ganzkörper-Bewegungsaufnahmesystem, Open-Source-Datensatz mit 7,15 Millionen Bildern

新智元2026-03-31 15:30
FlashCap ermöglicht die menschliche Bewegungsaufzeichnung mit 1000 Hz, öffnet Datensätze und Modelle als Open Source und treibt die Entwicklung von Sport, VR und Robotik voran.

【Einführung】Das weltweit erste 1-Millisekunden-Menschlichkeitsbewegungsaufzeichnungssystem FlashCap kombiniert blinkende LEDs mit Ereigniskameras, um eine ultraschnelle Bildwiederholrate von 1000 Hz zu erreichen. Ohne teure Geräte oder helle Umgebungsbedingungen kann es mit kostengünstigen Tragekleidern extreme Bewegungen präzise erfassen. Das Team hat gleichzeitig den FlashMotion-Datensatz mit 7,15 Millionen Frames und das multimodale Modell ResPose open source gemacht, was die Genauigkeit der Bewegungsanalyse erheblich verbessert und die Bereiche Sport, VR und Robotik in eine neue Phase der hochdynamischen Intelligenz führt.

Bei Spitzensportveranstaltungen entscheidet oft der Millisekundenunterschied über den Sieg oder die Niederlage.

Um jedoch diese flüchtigen Momente in Hochgeschwindigkeitssportarten wie Sprint, Klettern oder Rodeln zu erfassen, setzt die Branche derzeit oft auf Kompromisslösungen, wie teure Hochgeschwindigkeitsoptikkameras, die Hunderttausende von Yuan kosten und hohe Anforderungen an Beleuchtung, Bandbreite und Speicher haben, oder auf spezielle Zeitmessgeräte, die hohe Genauigkeit und Stabilität erfordern und ebenfalls teuer in der Installation und Wartung sind.

Wie wäre es also, mit einem kostengünstigen Menschlichkeitsbewegungsaufzeichnungskleid, der nicht von starker Umgebungsbeleuchtung abhängt, eine 1000-Hz-Millisekunden-Menschlichkeitsbewegungsaufzeichnung zu erreichen?

Die bestehenden Menschlichkeitsbewegungsaufzeichnungskleider können keine 1000-Hz-Millisekunden-Menschlichkeitsbewegungsaufzeichnung erreichen. Um diese Bildwiederholratenschwelle zu brechen, haben das ASC-Labor der Xiamen-Universität und die ShanghaiTech University einen anderen Weg eingeschlagen und das erste branchenübliche Millisekunden-Menschlichkeitsbewegungsaufzeichnungssystem FlashCap basierend auf blinkenden LEDs und Ereigniskameras vorgeschlagen.

Derzeit wurde diese Arbeit offiziell von der renommierten Computervision-Konferenz CVPR 2026 angenommen. Um den kontinuierlichen Fortschritt in diesem Bereich zu fördern, wird das Forschungsteam die Kernresultate vollständig open source machen: Es wird einen hochfrequenten Menschlichkeitsbewegungsaufzeichnung-Datensatz mit bis zu 7,15 Millionen Frames und den multimodalen, hochauflösenden Menschlichkeitsbewegungsaufzeichnung-Algorithmus ResPose freigeben.

  • Link zur Studie: https://arxiv.org/abs/2603.19770
  • Homepage der Studie: http://www.lidarhumanmotion.net/flashcap/

Abbildung 1: Rendering von FlashCap

Warum muss die Menschlichkeitsbewegungsaufzeichnung in die 1000-Hz-Zeit eintreten?

In Bereichen wie Wettkampfsport, hochauflösender Virtual Reality (VR) und präziser Fernbedienung von Robotern erfolgen die schnellen Mikrobewegungen des menschlichen Körpers (wie schnelles Winken, plötzliche Kraftanstrengung oder hochfrequente Zittern) oft innerhalb von wenigen Millisekunden.

Herkömmliche 120-Hz-Menschlichkeitsbewegungsaufzeichnungssysteme verlieren bei der Verarbeitung solcher Hochgeschwindigkeitsbewegungen erheblich an Informationen zwischen den Frames. Die bestehenden Lösungen verlassen sich normalerweise auf Zeitinterpolationsalgorithmen, um die fehlenden Bewegungsbahnen zu rekonstruieren. Dies führt jedoch unvermeidlich zu signifikanten Interpolationsfehlern, die zu übermäßiger Glättung der Bewegungen oder zu Verzerrungen, die den physikalischen Gesetzen widersprechen, führen.

Um also eine hochrealistische Wiedergabe der menschlichen Bewegung im Millisekundenbereich zu erreichen, ist die Überwindung der 1000-Hz-Bildwiederholrate eine zentrale Herausforderung.

Abbildung 2: Vergleich zwischen Interpolationsergebnissen und 1000-Hz-Ground Truth

Warum ist die 1000-Hz-Menschlichkeitsbewegungsaufzeichnung so schwierig?

Die höchste annotierte Bildwiederholrate der verfügbaren öffentlichen menschlichen Bewegungsdatensätze reicht nur knapp bis 120 Hz.

Bei Hochgeschwindigkeitsbewegungen treten leicht erhebliche Interpolationsfehler auf.

Wenn man hingegen herkömmliche industrielle Hochgeschwindigkeitskameras (> 1000 Hz) verwendet, stößt man auf das problematische Problem der drei Hochs:

Extrem hohe Kosten: Eine Hochgeschwindigkeitskamera der NAC-Klasse kostet leicht über 45.000 US-Dollar, das neunfache einer Ereigniskamera.

Extrem hohe Beleuchtungsanforderungen: Nur in einer hellen Umgebung kann sichergestellt werden, dass das Bild nicht unscharf wird.

Extrem hohe Hardwarebelastung: Die hohen Bandbreiten- und Speicheranforderungen machen die tägliche Installation fast unmöglich.

Andere Lösungen wie Inertialsensoren (IMU) sind zwar unabhängig von der Beleuchtung, haben jedoch unvermeidliche Integrationsdriftfehler, und die Frequenz kann kaum die Tausend-Hertz-Grenze überschreiten.

FlashCap: Gebe den Gelenken ein Morsecode

Angesichts dieser Sackgasse hat das Forschungsteam einen anderen Weg eingeschlagen und das FlashCap-Konzept vorgeschlagen. Das Prinzip dieses tragbaren Geräts ist äußerst klug:

Trage blinkende LEDs: Miniatur-LED-Leuchtmodule werden an den wichtigen Skelettgelenken des Körpers getragen.

Stroboskopische Identitätscodierung: Jede LED blinkt mit einer sehr hohen Frequenz (z. B. 4000 Hz) und hat ein einzigartiges Verhältnis von Leuchtzeit zu Dunkelzeit (On-Time / Off-Time), so als würde jedem Gelenk ein eigener Morsecode zugewiesen.

Präzise Erfassung durch Ereigniskameras: Ereigniskameras mit hoher zeitlicher Auflösung und sehr geringer Bandbreite erfassen asynchron diese schnellen Helligkeitsänderungen.

Durch eine zugehörige automatisierte Annotationspipeline (Dichteklassifizierung, Frequenzerkennung, Rauschfilterung) kann FlashCap direkt aus dem ungeordneten Ereignisstrom die ursprünglichen 1000-Hz-2D-Postur-Labels des menschlichen Körpers präzise extrahieren. Ohne Zehntausende von Dollar an Geräten, ohne starke Umgebungsbeleuchtung und ohne großen Datenspeicherbedarf sind die hochpräzisen, kostengünstigen 1000-Hz-Wahrheitsdaten fertig.

Abbildung 3: FlashCap-Systemschema

FlashMotion-Datensatz

Basierend auf dem FlashCap-System hat das Forschungsteam den FlashMotion-Datensatz erfasst und open source gemacht. Dieser Datensatz ist nicht nur multimodal (umfasst Ereignisströme, RGB, LiDAR-Punktwolken und IMU), sondern schlägt auch in der Datenmenge die bestehenden Datensätze um einiges:

  • 1000-Hz-Annotierungsrate: Die zeitliche Auflösung der öffentlichen Posturdatensätze wird um fast eine Größenordnung erhöht (von 120 Hz auf 1000 Hz).
  • 7,15 Millionen annotierte Frames: Enthält 240 Bewegungssequenzen und deckt 11 Arten von schnellen Bewegungen (wie schnelles Treten, schnelles Kreuzen der Hände, plötzlicher Sprung usw.) von 20 Probanden ab.

Tabelle 1: Vergleich des FlashMotion-Datensatzes mit bestehenden Datensätzen

ResPose: Kombination von Ruhe und Bewegung, um Hochgeschwindigkeitsmikrobewegungen zu bewältigen

Ohne einen passenden Algorithmus ist auch ein Spitzenhochfrequenzdatensatz wie ein Kanonenball auf eine Mücke. Bei 1000-Hz-Hochfrequenzdatenströmen stoßen herkömmliche Posturschätzmodelle, die auf langsamen RGB-Frames basieren, oft auf Probleme mit Rechenleistung und Latenz.

Deshalb hat das Forschungsteam ein äußerst elegantes und effizientes Basis-Modell ResPose entwickelt. Die Kernphilosophie des Algorithmus kann in acht Worten zusammengefasst werden: RGB bestimmt die Gesamtlage, Event erfasst die Feinabstimmung:

  1. RGB-Zweig (globale Ankerpunkte): Stabile Vorinformationen über die menschliche Körperstruktur werden aus niedrigfrequenten RGB-Bildern extrahiert, um niedrigfrequente, aber relativ genaue statische Ankerpunkte zu etablieren.
  2. Event-Zweig (Residuen): Ein gemischter SNN-CNN-Encoder wird eingesetzt, um den hochfrequenten Ereignisstrom zu verarbeiten. Das Modell schneidet lokal um die RGB-Ankerpunkte herum aus und erfasst präzise die Mikrosekundenbewegungsresiduen.
  3. Multimodale Transformer-Fusion: Die niedrigfrequente globale Struktur und die hochfrequenten lokalen Residuen werden in einen Transformer eingespeist, um die Raumzeitmerkmale auszurichten. Unter strengen kinematischen Einschränkungen wird eine glatte und präzise Millisekunden-Hochfrequenzpostur ausgegeben.

Abbildung 3: Netzwerkdiagramm von ResPose

Wie sind die praktischen Ergebnisse?

Bei der Hochfrequenzposturschätzung hat ResPose ein hervorragendes Ergebnis erzielt: Im Vergleich zu herkömmlichen Lösungen, die zuerst RGB-Merkmale extrahieren und dann zwangsläufig interpolieren, reduziert es den durchschnittlichen Gelenkpositionsfehler (MPJPE) um etwa 40 %!

Die ausgegebenen Bewegungsbahnen sind frei von Zittern und Formverzerrungen, die durch Algorithmusvorhersagen verursacht werden, und folgen perfekt der realen physikalischen Bewegung.

Bei der noch anspruchsvolleren Aufgabe der präzisen Bewegungszeitmessung (PMT) (z. B. die genaue Bestimmung des Millisekundenmoments, in dem ein Boxer einen Schlag landet):

  • Herkömmliche RGB-Methoden (wie ViTPose) können Hochgeschwindigkeitsbewegungen nicht richtig erfassen, und der Zeitfehler beträgt über 50 Millisekunden.
  • Herkömmliche multimodale Lösungen können ebenfalls nicht mit der 1000-Hz-Hochfrequenzmerkmalsausrichtung fertig werden und scheitern.
  • ResPose übertrifft alle anderen Lösungen dank seiner eleganten Kombination von Ruhe und Bewegung und reduziert den Zeitfehler auf nur wenige Millisekunden (z. B. nur 4,8 Millisekunden bei Boxbewegungen)!

Tabelle 2: Hochfrequenzposturschätzung.

Tabelle 3: Durchschnittlicher Zeitfehler bei der präzisen Bewegungs