Neue multimodale Adversarial-Methode der Tsinghua-Universität: Ein Kleidungsstück, das sich vor sichtbaren Wärmebildkameras "versteckt"

Tsinghua entwickelt neue konfrontative Kleidung, die gleichzeitig sichtbares Licht und Wärmebilddetektoren täuschen kann

【Einführung】Die Tsinghua-Universität hat eine neue physikalische Gegenmaßnahme vorgeschlagen, die spezielle Kleidung nutzt, um gleichzeitig die sichtbare Licht- und die Wärmebilderkennung zu stören. Durch eine nicht überlappende Gestaltung und eine dreidimensionale Modellierung kann diese Kleidung effektiv RGB-T-Detektoren umgehen und die Forschung zur System-Sicherheit voranbringen.

In den letzten Jahren hat das kombinierte Zielerkennungssystem für sichtbares Licht und Wärmebild (RGB-T) immer mehr Aufmerksamkeit erhalten.

Im Vergleich zur einfachen Erkennung von sichtbarem Licht kann der RGB-T-Detektor die Informationen von normalen Kameras und Wärmebildkameras gleichzeitig nutzen. Er ist in komplexen Umgebungen wie Nacht, schwachem Licht und schlechtem Wetter robuster und hat daher große Anwendungsrelevanz in Szenarien wie autonomem Fahren, intelligenter Sicherheit und Robotersensorik.

Da das multimodale System die Informationen von sichtbarem Licht und Wärmebild gleichzeitig integriert, wird es normalerweise als zuverlässiger als ein unimodales System angesehen: Selbst wenn ein Modus gestört wird, kann der andere Modus immer noch ergänzende Informationen liefern.

Allerdings fehlt es an einer systematischen Untersuchung, ob die Sicherheit solcher Systeme in der realen physikalischen Welt tatsächlich ausreichend zuverlässig ist.

Kürzlich hat ein Forschungsteam der Tsinghua-Universität in einem CVPR 2026-Papier eine physikalische Gegenmaßnahme für RGB-T-Ziel-Detektoren vorgeschlagen. Diese Methode ermöglicht es, durch das Design einer speziellen Gegenmaßnahmenkleidung, dass Fußgänger in der realen Welt sowohl sichtbare Licht- als auch Wärmebild-Detektoren umgehen können.

Link zum Papier: https://arxiv.org/abs/2605.04675

Link zum Code: https://github.com/zxp555/RGBT-Clothing

Experimente zeigen, dass diese Methode RGB-T-Detektoren mit unterschiedlichen Fusionsarchitekturen bekämpfen kann. Die durchschnittliche Erfolgsrate der Gegenmaßnahmen im digitalen Raum erreicht 90%, und in der realen physikalischen Welt 60%.

Forschungshintergrund

Untersuchungen zu adversarischen Beispielen zeigen, dass tiefe neuronale Netze bei sorgfältig gestalteten Störungen möglicherweise fehlerhafte Urteile fällen. In der Vergangenheit konzentrierten sich die meisten physikalischen Gegenmaßnahmen auf ein einzelnes Modus: Beispielsweise kann in sichtbaren Licht-Szenarien ein adversarisches Muster auf Papier, Aufklebern oder Kleidung gedruckt werden; in Wärmebild-Szenarien können Heizelemente, Wärmedämmmaterialien usw. verwendet werden, um das Wärmebild zu verändern.

Es gibt jedoch signifikante Unterschiede zwischen dem sichtbaren Licht- und dem Wärmebild-Mechanismus. Sichtbare Lichtbilder hängen von Beleuchtung, Farbe und Textur ab, während Wärmebildbilder die Wärmestrahlungseigenschaften der Objektoberfläche widerspiegeln.

Deshalb können die für sichtbares Licht entworfenen adversarischen Muster oft nicht effektiv im Wärmebild wirken; auch die für Wärmebilder entworfenen Materialien haben Schwierigkeiten, gleichzeitig den sichtbaren Licht-Detektor zu täuschen.

Derzeit gibt es einige Arbeiten, die versuchen, RGB-T-Detektoren zu bekämpfen, aber es gibt immer noch Einschränkungen. Beispielsweise verwenden einige Methoden zweidimensionale adversarische Patches, aber der Winkelbereich der Gegenmaßnahmen ist eng; andere Methoden müssen spezielle Niedrigstrahlungsfolien auf das gedruckte Muster legen, was die Wirkung des sichtbaren Lichtmusters schwächt und die Herstellungskosten erhöht. Das heißt, die echten Sicherheitsrisiken von RGB-T-Detektoren unter verschiedenen Winkeln, Entfernungen und Fusionsarchitekturen sind noch nicht ausreichend aufgeklärt.

Forschungsmethode

Um diese Probleme zu lösen, haben die Autoren ein nicht überlappendes RGB-T-adversarisches Musterdesign vorgeschlagen, das NORP (non-overlapping RGB-T pattern) genannt wird. Der Kerngedanke ist: Jede Position auf der physikalischen Gegenmaßnahmenkleidung wird entweder zur Anzeige eines sichtbaren Lichtmusters, um die sichtbare Licht-Erkennung zu stören, oder zur Anzeige eines Wärmebildmusters, um das Wärmebild-Modul zu stören, verwendet. Die beiden überlappen sich im Raum nicht.

Genauer gesagt verwenden die Autoren normale druckbare Stoffe, um das sichtbare Licht-adversarische Muster zu tragen, und gleichzeitig übliches Aluminiumfolienmaterial, um den lokalen Wärmebildeffekt zu verändern. So kann es gleichzeitig auf die beiden Modi RGB und Thermal wirken und vermeidet das Problem des Helligkeitsabfalls, das durch traditionelles überlappendes Drucken entsteht.

Um in der realen Welt für verschiedene Beobachtungswinkel geeignet zu sein, haben die Autoren weiter ein dreidimensionales RGB-T-Modell von Körper und Kleidung erstellt. Durch die dreidimensionale Modellierung kann das System im digitalen Raum die Auswirkungen der Kleidung auf den Körper unter 0 bis 360 Grad Vollansicht simulieren und gleichzeitig sichtbare Lichtbilder und Wärmebilder rendern. Nach der Optimierung erstellen die Autoren dann echte Kleidung, einschließlich Oberteile und Hosen, basierend auf den generierten Mustern, um so die RGB-T-Gegenmaßnahmen in der realen Welt unter Vollansicht zu realisieren.

Aber bei der Optimierungsmethode des adversarischen Musters bringt NORP ein neues Problem mit sich: Eine Position kann nicht gleichzeitig eine kontinuierlich optimierbare RGB-Farbe und ein diskret ausgewähltes Wärmebildmaterial sein. Dafür haben die Autoren eine räumliche diskret-kontinuierliche Optimierungsmethode vorgeschlagen. Bei der Optimierung werden zufällig einige Bereiche diskretisiert, während die anderen kontinuierlichen Variablen aktualisiert werden. So können die sichtbaren Licht- und Wärmebild-adversarischen Muster gemeinsam optimiert werden, während die physikalischen Herstellungsbeschränkungen erfüllt werden.

Um die Übertragungsfähigkeit der Gegenmaßnahmen auf unbekannte Detektoren zu verbessern, haben die Autoren auch eine Fusionsphasen-Integrationsmethode vorgeschlagen. Sie integriert frühe Fusions-, mittlere Fusions-, späte Fusions- und unabhängige Zweimodaldetektoren in die Optimierung, so dass eine Kleidung RGB-T-Erkennungssysteme mit verschiedenen Fusionsarchitekturen effektiv stören kann.

Experimentelle Ergebnisse

Die Autoren haben zunächst eine systematische Bewertung im digitalen Raum durchgeführt. Die Experimente umfassen verschiedene RGB-T-Erkennungsarchitekturen, einschließlich des frühen Fusionsdetektors Prob-E, des mittleren Fusionsdetektors Prob-M, des späten Fusionsdetektors Prob-L und der unabhängigen sichtbaren Licht- und Wärmebilddetektoren YOLO11. Die Bewertung wurde mit 500 Bildern aus dem FLIR-Testset unter zufälligen Personenwinkeln, Entfernungen, Hintergründen und Beleuchtungsbedingungen durchgeführt.

Die Ergebnisse zeigen, dass dank der 3D-Modellierung und der kontinuierlich-diskreten Mischoptimierungs-Methode der Gegenmaßnahmen die Experimente in diesem Artikel im digitalen Raum eine sehr hohe Erfolgsrate der Gegenmaßnahmen (ASR) gegenüber verschiedenen RGB-T-Detektoren erreicht haben, die über 90% liegt. Im Vergleich dazu ist die Erfolgsrate der Gegenmaßnahmen von normaler einfarbiger Kleidung, zufälligen RGB-T-Mustern und bestehenden Gegenmaßnahmenmethoden gegenüber multimodalen Ziel-Detektoren eher begrenzt.

Die Autoren haben auch die Effekte der Gegenmaßnahmen unter verschiedenen Entfernungen und Winkeln weiter analysiert. Die Experimente umfassen einen Winkelbereich von 0 bis 360 Grad und eine Entfernungsspanne von 2,5 Metern bis 20 Metern. Die Ergebnisse zeigen, dass die Methode in diesem Artikel RGB-T-Detektoren unter Vollansicht und verschiedenen Entfernungen stabil bekämpfen kann. Im Vergleich zu den früheren zweidimensionalen Patch-Methoden, die hauptsächlich für einen begrenzten Winkelbereich geeignet sind, hat sie deutliche Vorteile.

Als nächstes haben die Autoren echte RGB-T-Gegenmaßnahmenkleidung aus Stoff und Aluminiumfolie hergestellt und physikalische Welt-Experimente durchgeführt. Bei den Experimenten wurden mit einem iPhone 13 Pro und einer FLIR T560-Wärmebildkamera gleichzeitig sichtbare Licht- und Wärmebilder aufgenommen, und die Daten wurden in verschiedenen Szenarien wie Innen- und Außenräumen, Morgen, Mittag, Nachmittag und Abend gesammelt. Die Ergebnisse der physikalischen Experimente zeigen, dass die Methode in diesem Artikel RGB-T-Detektoren mit verschiedenen Fusionsarchitekturen effektiv umgehen kann. Die durchschnittliche Erfolgsrate der Gegenmaßnahmen erreicht 60%, was deutlich besser ist als bei normaler Kleidung, Kleidung mit zufälligen Mustern und bestehenden Methoden.

Die Autoren haben auch die Übertragungsfähigkeit der Methode in einer Black-Box-Einstellung verifiziert. Durch die Fusionsphasen-Integrationsoptimierung kann eine Gegenmaßnahmenkleidung RGB-T-Detektoren, die nicht an der Trainingsphase teilgenommen haben, wie RPN-E, AR-CNN, RPN-L und Deformable DETR, übertragen bekämpfen. Die Autoren haben auch einen gewissen Übertragungseffekt der Gegenmaßnahmen bei diesen Modellen beobachtet. Dies zeigt, dass das aktuelle RGB-T-Erkennungssystem immer noch allgemeine Sicherheitsrisiken bei der Realisierung physikalischer Gegenmaßnahmen hat.

Schlussfolgerung und Ausblick

Die Forscher haben eine physikalische Gegenmaßnahme für RGB-T-Ziel-Detektoren vorgeschlagen.

Durch die Erstellung eines dreidimensionalen RGB-T-Körper- und Kleidungsmodells, das Design eines nicht überlappenden RGB-T-adversarischen Musters und die Vorschläge einer räumlichen diskret-kontinuierlichen Optimierungsmethode wurde eine herstellbare, tragfähige und vollansichtige multimodale Gegenmaßnahmenkleidung realisiert.

Diese Studie zeigt, dass selbst ein multimodales Erkennungssystem, das die Informationen von sichtbarem Licht und Wärmebild integriert, in der realen Welt durch physikalische adversarische Beispiele bedroht werden kann.

Die relevanten Forschungsergebnisse helfen, die Sicherheitsrisiken von RGB-T-Detektoren umfassender zu verstehen und zukünftig ein robusteres und zuverlässigeres multimodales Sensorsystem zu entwickeln.

Autorenvorstellung

Die Autoren des Papiers sind nacheinander Zhu Xiaopei, ein Wasserbaum-Forscher der Tsinghua-Universität, deren Betreuer Professor Zhu Jun ist; Zeng Guanning (gemeinsamer Erstautor), ein Student der Fakultät für Informatik der Tsinghua-Universität; Hu Zhanhao, ein Postdoktorand an der Universität von Kalifornien, Berkeley; sowie die Korrespondenzautoren dieses Artikels, Professor Zhu Jun und Assistentprofessor Hu Xiaolin der Tsinghua-Universität.

Referenzmaterial: https://arxiv.org/abs/2605.04675

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Redaktion: LRST, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。