Erschütternd: KI und Physik-Kombination - Helmholtz-Gleichung im Generator eingebettet, Artefakte verschwinden sofort!

Die PhyRMDM der Hong Kong University of Science and Technology kombiniert Physik und KI, verbessert die Genauigkeit der 6G-Funkkarte und wird in die ACM MM 2025 aufgenommen.

Am Vorabend des 6G-Eintritts wird die Branche der Funk-Karten durch die Kombination von KI und Physik neu geformt. Institutionen wie die Hong Kong University of Science and Technology (Guangzhou) haben gemeinsam das PhyRMDM-Framework vorgestellt. Dieses Framework bricht mit bestehenden Vorurteilen und kombiniert physikalische Beschränkungen mit der Fähigkeit von Generativmodellen, um die Qualität und Stabilität der Erzeugung hochpräziser Funk-Karten deutlich zu verbessern. Dieses Ergebnis wurde von der renommierten Konferenz ACM MM 2025 akzeptiert.

Traditionelle KI-Systeme neigen bei der Erstellung von Funk-Karten dazu, ungenaue Vorhersagen zu treffen, da sie oft nicht von physikalischen Gesetzen geleitet werden.

Um dieses Problem zu lösen, hat das Forschungsteam der Hong Kong University of Science and Technology (Guangzhou) das innovative PhyRMDM-Framework entwickelt. Dabei werden erstmals das Physics-Informed Neural Network (PINN) und das Diffusionsmodell kombiniert, und eine neue Doppel-Unet-Architektur wurde entworfen.

Dieses Framework leitet den Trainingsprozess des KI-Modells durch physikalische Gleichungen, was eine perfekte Integration von datengesteuerten Verfahren und physikalischen Gesetzen ermöglicht. Dadurch werden die Genauigkeit und die physikalische Konsistenz der Erzeugung von Funk-Karten auf ein neues Niveau gehoben.

Das Ergebnis wurde in Form eines Papers von ACM MM 2025 akzeptiert. Der Code und die Gewichte sind open source.

Link zum Paper: https://arxiv.org/abs/2501.19160

Code-Repository: https://github.com/Hxxxz0/RMDM

Mit der Annäherung des 6G-Zeitalters gewinnt die hochpräzise Funk-Karte (Radio Map, RM) in Bereichen wie intelligenter Kommunikation, Navigation von unbemannten Systemen und Internet der Dinge zunehmend an strategischer Bedeutung.

Allerdings neigen bestehende datengesteuerte Verfahren, wie traditionelle Deep-Learning-Netze, bei der Verarbeitung von spärlichen oder verrauschten Beobachtungsdaten dazu, "Kunstprodukte" oder ungenaue Ergebnisse zu erzeugen, da der Trainingsprozess nicht von den inneren Gesetzen der realen Welt geleitet wird und somit nicht den physikalischen Gesetzen der elektromagnetischen Wellenausbreitung entspricht.

Die Herausforderung besteht darin, dass das KI-Modell nicht nur Daten "lernen", sondern auch physikalische Gesetze "verstehen" und "befolgen" kann. Dies ist der Schlüssel zur Verbesserung der Qualität der RM-Erstellung.

Vor diesem Hintergrund wurde das neue PhyRMDM-Framework entwickelt, das physikalische Vorwissen, probabilistische Generierungsfähigkeiten und fortschrittliche Attention-Mechanismen integriert.

Dieses Framework bietet durch seine innovative Gestaltung eine leistungsstarke Lösung für die Erstellung von Funk-Karten mit hoher Fidélität und physikalischer Konsistenz.

PhyRMDM, ein generatives Framework geleitet von physikalischen Gesetzen

Das Kernkonzept von PhyRMDM ist "Physik als Grundlage, KI als Werkzeug".

Es nutzt die starke probabilistische Generierungsfähigkeit des Diffusionsmodells, um die räumliche Gesamtverteilung der Funk-Karte zu erstellen. Gleichzeitig wird das Physics-Informed Neural Network (PINN) als ein unverletzlicher "physikalischer Anker" (Physics Anchor) eingesetzt, der jeden Schritt des Trainingsprozesses leitet, sodass das endgültige Modell von der Helmholtz-Gleichung der elektromagnetischen Wellenausbreitung geleitet wird.

Modellarchitektur und Kernmodule: Die Gesamtarchitektur von PhyRMDM ist ein bedingungengeleiteter Diffusionsgenerierungsprozess.

Es besteht aus einem Kern-Generierungsmodul und zwei wichtigen Bedingungs-Eingabemodulen, die zusammenarbeiten.

Das Kern-Generierungsmodul: Diffusionsmodell

1. Das Diffusionsmodell ist das Fundament des gesamten Frameworks und ist für die Erzeugung von Bildern von Grund auf verantwortlich.

Der Prozess besteht aus zwei Schritten:

Vorwärts-Prozess: Während der Trainingsphase fügt das Modell kontinuierlich Gauss'sches Rauschen zu der echten Funk-Karte hinzu, bis sie eine vollständig ungeordnete Zufallsrauschkarte x_T wird.

Rückwärts-Entrauschung (Generierungsprozess): In der Inferenzphase startet das Modell mit einer rein gauss'schen Rauschkarte x_T und entfernt schrittweise das Rauschen über mehrere Zeitpunkte (Timestep) mithilfe eines trainierten neuronalen Netzwerks. Bei jedem Schritt (z. B. von x_t zu x_{t - 1}) bezieht sich das Modell auf die Informationen des Bedingungsmodells und führt eine präzise "Entrauschungs"-Operation durch, bis schließlich eine klare und reale Funk-Karte x_0 erzeugt wird.

2. Physikalischer Anker: Physics-Informed Neural Network (PINN Condition)

Dies ist das bahnbrechendste Merkmal von PhyRMDM, das sicherstellt, dass die "Phantasie" der KI nicht von der physikalischen Realität abweicht.

Der Kern des Moduls zur physikalischen Gleichungsbeschränkung:

Die diskretisierte Form der Helmholtz-Gleichung

Diese Gleichung beschreibt den stationären Ausbreitungszustand elektromagnetischer Wellen in zwei Dimensionen.

Als physikalische Bedingung greift das PINN-Modul in jeden Entrauschungsschritt des Diffusionsmodells als starke Beschränkung ein.

Es bewertet, inwieweit das aktuell erzeugte Zwischenergebnis von der Lösung der physikalischen Gleichung abweicht, und verwendet diesen "physikalischen Residualwert" als Leit-Signal, um die Generierungsrichtung zu korrigieren und sicherzustellen, dass die endgültig erzeugte Karte an jedem Pixel möglichst gut den Wellengleichungen entspricht.

Aufgrund der Komplexität der Funkausbreitung kann eine einzelne Gleichung diese nicht genau beschreiben. Daher verwendet PhyRMDM innovativ eine Doppel-Unet-Architektur:

Ein Unet ist für die Entrauschung verantwortlich, das andere für das Lernen der physikalischen Repräsentation.

3. Räumliche Merkmalsfusion: Radio Frequency Spatial Attention-Modul (RF - SA)

Um dem Modell zu ermöglichen, die Auswirkungen komplexer Phänomene auf die Signalausbreitung, wie z. B. die Abschattung durch Gebäude oder die Reflexion an Straßenecken, besser zu erfassen, hat das Team das neue Radio Frequency Spatial Attention - Modul entwickelt.

Verarbeitung in Raum- und Frequenzdomäne: Dieses Modul ermöglicht die simultane Verarbeitung von Informationen in der räumlichen Domäne (Spatial Domain) und der Frequenzdomäne (Frequency Domain). Die eingegebene Merkmalskarte

wird in zwei parallele Zweige geleitet.

Frequenzdomänenanalyse: Ein Zweig wandelt die räumlichen Merkmale mithilfe der schnellen Fourier-Transformation (FFT) in die Frequenzdomäne um und erhält so Frequenzmerkmale

Dies hilft dem Modell, die periodischen und globalen Merkmale des Signals zu erfassen.

Merkmalsfusion und Verstärkung: Die Frequenzdomänenmerkmale werden mit den ursprünglichen räumlichen Merkmalen

durch Matrixmultiplikation und andere Methoden tiefgehend fusioniert und mithilfe eines lernbaren Filters gewichtet.

Ausgabe: Schließlich werden die fusionierten Merkmale mithilfe der inversen Fourier-Transformation (IFFT) zurück in die räumliche Domäne gewandelt, um eine verstärkte Merkmalskarte (OUTPUT) zu erzeugen, die die räumlichen Beziehungen besser erfasst.

Leistungsvorteile und Ausblick

Analyse 1: Vergleich der Leistung bei der Erstellung von statischen Funk-Karten (SRM)

Interpretation der Tabelleninhalt

Diese Tabelle vergleicht die Leistung verschiedener Deep-Learning-Modelle bei der Erstellung von statischen Funk-Karten (SRM) auf dem RadioMap Seer - Test - Datensatz. Die Bewertungsmetriken werden in zwei Kategorien unterteilt:

Fehlermetriken: NMSE (normalisierter mittlerer quadratischer Fehler) und RMSE (Wurzel aus dem mittleren quadratischen Fehler). Je niedriger diese Werte sind, desto näher liegen die Vorhersagen des Modells an den echten Werten und desto höher ist die Genauigkeit.

Strukturmetriken: SSIM (Strukturähnlichkeit) und PSNR (Peak - Signal - to - Noise - Ratio). Je höher diese Werte sind, desto ähnlicher ist die vom Modell erzeugte Karte in Struktur, Kantenschärfe und Fidélität zum Originalbild.

Analyse 2: Vergleich der Leistung bei der Erstellung von dynamischen Funk-Karten (DRM)

Diese Tabelle zeigt die Leistung verschiedener Modelle in der herausfordernden Situation der Erstellung von dynamischen Funk-Karten (DRM). In dynamischen Szenarien müssen die Modelle zusätzlich die Auswirkungen von dynamischen Faktoren wie Fahrzeugen berücksichtigen.

Analyse 3: Ablationsstudie

Diese Ablationsstudie untersucht den Beitrag der drei Schlüsselverlustfunktionen des Modells zur Gesamtleistung: L_MSE (mittlerer quadratischer Fehler), L_PINN (physikalischer Informationsverlust) und L_REG (Regularisierungsverlust).

Die Experimentergebnisse zeigen, dass die Kombination dieser drei Teile die beste Leistung liefert. Das Modell erreichte einen minimalen NMSE (normalisierter mittlerer quadratischer Fehler) von 0,0031 und einen RMSE (Wurzel aus dem mittleren quadratischen Fehler) von 0,0125.

Die Studie hat gezeigt, dass der mittlere quadratische Fehler

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Erschütternd: Die Kombination von KI und Physik - Das Helmholtz-Gleichung in den Generator eingebettet, und die Artefakte verschwinden sofort.

PhyRMDM, ein generatives Framework geleitet von physikalischen Gesetzen

Das Kern-Generierungsmodul: Diffusionsmodell

Leistungsvorteile und Ausblick