SJTU: Grenzen sprengen - Ende-zu-Ende-Hochgeschwindigkeits-Kollisionsvermeidung für Drohnen mithilfe differenzierbarer Physik erreicht

Neue Methode für die Navigation von Drohnen-Clustern an der Shanghai Jiao Tong Universität: Physik + Deep Learning, 20 m/s.

Ein Forschungsgruppe der Shanghai Jiao Tong Universität hat eine End-to-End-Methode vorgeschlagen, die die physikalische Modellierung von Drohnen mit Deep Learning kombiniert. Dadurch wurde ein leichtgewichtiges, deployierbares und kooperatives autonomes Navigationssystem für Drohnenverbände realisiert, das in Robustheit und Manövrierfähigkeit weit vor den bestehenden Lösungen liegt.

Stellen Sie sich vor: In unbekannten Wäldern, städtischen Trümmern oder sogar in Innenräumen voller Hindernisse fliegen eine Gruppe von Drohnen wie Vögel schnell hin und her, ohne auf Karten, Kommunikation oder teure Geräte angewiesen zu sein. Diese Vorstellung ist jetzt Wirklichkeit!

Die Forschungsgruppe der Shanghai Jiao Tong Universität hat eine End-to-End-Methode vorgeschlagen, die die physikalische Modellierung von Drohnen mit Deep Learning kombiniert. In dieser Studie wurde erstmals eine Strategie für differenzierbare physikalische Trainingsprozesse erfolgreich auf reale Roboter angewendet, um ein echtes "leichtgewichtiges, deployierbares und kooperatives" End-to-End-System für die autonome Navigation von Drohnenverbänden zu realisieren. Dieses System übertrifft die bestehenden Lösungen bei Robustheit und Manövrierfähigkeit deutlich.

Das Ergebnis wurde in "Nature Machine Intelligence" online veröffentlicht. Die Master-Absolventen Zhang Yuang, Hu Yu und der Doktorand Song Yunlong sind die gemeinsamen Erstautoren, die Professoren Zou Danping und Lin Weiyao sind die Korrespondenzautoren.

Link zur Studie: https://www.nature.com/articles/s42256-025-01048-0

Link zum Projekt: https://henryhuyu.github.io/DiffPhysDrone_Web/

Der Kerngedanke: Einfachheit ist die höchste Kunst

Frühere autonome Navigationssysteme für Drohnen hingen oft von folgenden Faktoren ab:

Die Entwurf von Algorithmen für hochkomplexe Positionierung und Kartenerstellung, Pfadplanung und -generierung sowie Pfadverfolgung in einer Reihenschaltung von Modulen.
Teure und sperrige Sensoren sowie leistungsstarke CPU/GPU-Berechnungsplattformen.
Kommunikation zwischen mehreren Drohnen oder zentrale Planung.

Die Forschungsgruppe hat eine neue Methode entwickelt, die einen völlig neuen Weg beschreitet: Sie verwendet 12×16-Tiefenbilder mit ultrageringer Auflösung als Eingabe und ein ultrasmalles neuronales Netzwerk mit nur drei CNN-Schichten, um End-to-End-autonomes Fliegen zu ermöglichen. Dieses System kann auf einer kostengünstigen Einplatinencomputerplattform für 150 Yuan deployiert werden.

Diese Methode verzichtet auf die komplexe Dynamik von Drohnen und verwendet stattdessen ein einfaches Massenpunktmodell. Über einen differenzierbaren physikalischen Simulator wird das End-to-End-Netzwerk trainiert.

Schließlich wird es möglich, "einmal trainiert, die Gewichte für mehrere Drohnen zu teilen" und ohne Kommunikation zu fliegen!

Erstaunliche Leistung: Fliegen durch die reale Welt

Im Einzeldrohnen-Szenario wurde das Netzwerkmodell auf einer Drohne installiert und in verschiedenen realen Umgebungen getestet, darunter in Wäldern, städtischen Parks und in Innenräumen mit statischen und dynamischen Hindernissen.

Das Netzwerkmodell erreichte in unbekannten komplexen Umgebungen eine Navigationserfolgsrate von bis zu 90 % und zeigte eine stärkere Robustheit als die besten bestehenden Methoden.

In einem realen Waldumfeld erreichte die Drohne eine Fluggeschwindigkeit von bis zu 20 Metern pro Sekunde, doppelt so schnell wie die bestehenden Lösungen basierend auf Imitationslernen. In allen getesteten Umgebungen wurde ein Zero-Shot-Transfer erreicht. Das System kann ohne GPS oder VIO für die Positionsbestimmung funktionieren und kann sich an dynamische Hindernisse anpassen.

Abbildung 1: Mehrere Drohnen fliegen gemeinsam

Im Mehrdrohnen-Szenario wurde das Netzwerkmodell auf sechs Drohnen installiert, um Aufgaben wie das Fliegen durch komplexe Hindernisse in die gleiche Richtung und das Tauschen von Positionen auszuführen.

Diese Strategie zeigte in Szenarien wie das Fliegen durch Türen, um dynamische Hindernisse zu umgehen und in komplexen statischen Umgebungen eine hohe Robustheit. In Experimenten, bei denen mehrere Drohnen Türen passierten und ihre Positionen tauschten, zeigte sich ein selbstorganisierendes Verhalten ohne Kommunikation oder zentrale Planung.

Abbildung 2: Selbstorganisierte Kooperation mehrerer Drohnen

Abbildung 3: Dynamisches Hindernisausweichen

Der Schlüsselgedanke: Einbinden von physikalischen Prinzipien, damit die Drohne "selbst lernt zu fliegen"

End-to-End-differenzierbares Simulations-Training: Das Strategienetzwerk steuert direkt die Bewegung der Drohne, und die Rückwärtsverarbeitung wird über einen physikalischen Simulator realisiert.

Leichtgewichtiges Design: Die gesamten Parameter des End-to-End-Netzwerks belaufen sich nur auf 2 MB und können auf einer 150-Yuan-Berechnungsplattform (weniger als 5 % der Kosten einer GPU-Lösung) deployiert werden.

Effizientes Training: Auf einer RTX 4090-Grafikkarte kann das Netzwerk in nur zwei Stunden konvergieren.

Abbildung 4: Kostengünstige Rechenplattform

Der Gesamt-Trainingsrahmen ist wie folgt: Über die Interaktion mit der Umgebung wird das Strategienetzwerk trainiert. In jedem Zeitschritt erhält das Strategienetzwerk ein Tiefenbild als Eingabe und gibt über das Netzwerk Steuerbefehle (Schubbeschleunigung und Gierwinkel) aus.

Der differenzierbare physikalische Simulator simuliert die Bewegung der Drohne als Massenpunkt basierend auf den Steuerbefehlen und aktualisiert den Zustand:

In dem neuen Zustand kann ein neues Tiefenbild gerendert und die Kostenfunktion berechnet werden.

Die Kostenfunktion besteht aus mehreren Unterfunktionen, darunter Geschwindigkeitsverfolgung, Hindernisausweichen und Glättung. Nach der Trajektoriensammlung kann die Kostenfunktion über die Kettenregel (rote Pfeile in Abbildung 1) differenziert werden, um die Rückwärtsverarbeitung zu realisieren und direkt die Strategieparameter zu optimieren.

Das Trainingstrick der "Einfachheit ist Schönheit"

Einfaches Modell: Verwendung eines Massenpunktmodells anstelle einer komplexen Flugzeugmodellierung.
Einfache Bilder: Niedrige Auflösung und explizite geometrische Modellierung verbessern die Simulationsleistung.
Einfaches Netzwerk: Drei Convolutional-Schichten + GRU-Zeitreihenmodul, klein und effizient.

Darüber hinaus wird durch die Einführung eines lokalen Gradienten-Attenuationsmechanismus während des Trainings das Problem des Gradientenexplosions effektiv gelöst, so dass die Drohne natürlicherweise "auf das aktuelle Szenario konzentriert" und Manöverstrategien entstehen.

Methodenvergleich: Reinforcement Learning, Imitation Learning oder physikalisch angetrieben?

Die derzeitigen Haupttrainingsparadigmen für Embodied Intelligence lassen sich in zwei Kategorien einteilen: Reinforcement Learning (RL) und Imitation Learning (IL). Beide Methoden haben jedoch deutliche Engpässe in Effizienz und Skalierbarkeit:

Reinforcement Learning (z. B. PPO) verwendet meist model-free-Strategien und berücksichtigt nicht die physikalische Struktur der Umgebung oder des Steuerobjekts. Die Strategieoptimierung basiert hauptsächlich auf stichprobenbasierten Schätzungen der Strategiegradienten, was nicht nur zu einer sehr geringen Datennutzung führt, sondern auch die Konvergenzgeschwindigkeit und -stabilität des Trainings erheblich beeinträchtigt.

Imitation Learning (z. B. Agile [Antonio et al. (2021)]) hängt von einer großen Anzahl hochwertiger Expertenbeispielen als Überwachungssignale ab. Die Erfassung dieser Daten ist normalerweise teuer, und es ist schwierig, alle möglichen Szenarien abzudecken, was die Generalisierungsfähigkeit und Skalierbarkeit des Modells beeinträchtigt.

Im Vergleich dazu kombiniert der in dieser Studie vorgeschlagene Trainingsrahmen auf der Grundlage eines differenzierbaren physikalischen Modells effektiv die Vorteile von physikalischem Vorwissen und End-to-End-Lernen.

Durch die Modellierung des Flugzeugs als einfaches Massenpunktsystem und die Einbindung des differenzierbaren Simulationsprozesses kann direkt eine Rückwärtsverarbeitung der Gradienten der Strategienetzwerkparameter durchgeführt werden, um einen effizienten, stabilen und physikalisch konsistenten Trainingsablauf zu realisieren.

In den Experimenten wurden die drei Methoden (PPO, Agile und die hier vorgestellte Methode) systematisch verglichen. Die Hauptfolgerungen sind wie folgt:

Trainings-effizienz: Auf der gleichen Hardwareplattform kann die hier vorgestellte Methode in etwa zwei Stunden konvergieren, was deutlich weniger Zeit benötigt als PPO und Agile.

Datennutzung: Mit nur etwa 10 % der Trainingsdaten übertrifft die hier vorgestellte Methode die Leistung von PPO + GRU, das mit der vollen Datenmenge trainiert wurde.

Konvergenzleistung: Während des Trainings zeigt die hier vorgestellte Methode eine geringere Varianz und eine schnellere Leistungssteigerung. Die Konvergenzkurve ist deutlich besser als die der beiden Hauptmethoden.

Deployierbarkeit: In realen oder annähernd realen Hindernisausweichaufgaben hat die hier vorgestellte Methode eine deutlich höhere Erfolgsrate als PPO und Agile und zeigt eine stärkere Robustheit und Generalisierungsfähigkeit.

Dieser Vergleich bestätigt nicht nur die Effektivität des "physikalisch angetriebenen" Ansatzes, sondern auch, dass starke KI nicht unbedingt auf einer riesigen Datenmenge und teuren Fehlversuchen basieren muss, wenn dem Agenten die richtige Trainingsmethode gegeben wird.

Abbildung 5: Die hier vorgestellte Methode übertrifft mit nur 10 % der Trainingsdaten die bestehenden Methoden (PPO + GRU) in der Konvergenzleistung.

Abbildung 6: Vergleich der Hindernisausweich-Erfolgsraten der Modelle

Die Aufklärung der Unklarheit: Untersuchung der Interpretierbarkeit

Obwohl End-to-End-neuronale Netze in der autonomen Flug-Hindernisausweichaufgabe eine starke Leistung zeigen, bleibt die Undurchsichtigkeit des Entsche