StartseiteArtikel

Technische Universität München und andere Institutionen haben basierend auf SD3 eine Methode zur Generierung von Satellitenbildern entwickelt und den derzeit größten Fernerkundungsdatensatz aufgebaut.

超神经HyperAI2025-06-30 15:43
Es enthält über 2,9 Millionen RGB-Satellitenbilddaten und deckt 15 Arten von Landbedeckungen ab.

Ein Team der Technischen Universität München in Deutschland und der Universität Zürich in der Schweiz hat eine neue Methode zur Generierung von Satellitenbildern mit Stable Diffusion 3 (SD3) unter Berücksichtigung geographischer und klimatischer Hinweise vorgeschlagen und den bisher größten und umfassendsten Fernerkundungsdatensatz EcoMapper erstellt.

Satellitenbilder sind Bilder der Erdoberfläche, die durch Satelliten-Fernerkundungstechniken erfasst werden. Sie digitalisieren die Informationen der Erde aus einer "Raumaussicht", ermöglichen eine großflächige Erfassung, dynamische Verfolgung und Datenunterstützung. Im täglichen Leben der Menschen sind sie sowohl für die makroskopische Umweltverwaltung als auch für das mikroskopische Stadtleben unverzichtbar. Beispielsweise kann man in der Forstüberwachung durch Satellitenbilder schnell die Waldverteilung bestimmen, das Deckungsverhältnis verschiedener Waldtypen berechnen und die Veränderungen der Waldbedeckung aufgrund von Abholzung, Pflanzung, Krankheiten und Schädlingsbefall überwachen.

Allerdings ist die Satellitenüberwachung leicht von mehreren Faktoren beeinflusst, was ihre Leistung und Anwendbarkeit in einem gewissen Maße mindert. Die Störung durch Wolkenbedeckung ist besonders ausgeprägt. In Regionen mit häufigen Wolken kann die Satellitenüberwachung mehrere Tage oder sogar Wochen unterbrochen sein. Dies behindert nicht nur die Echtzeit- und dynamische Überwachung der Satelliten, sondern stellt auch die neue Forderung, Satellitenbilder mit Klimadaten zu kombinieren, um die Vorhersagegenauigkeit zu verbessern. Der rasant fortschreitende Entwicklung der Künstlichen Intelligenz und der maschinellen Lernalgorithmen bietet eine Chance zur Lösung dieser Forderung. Die meisten gegenwärtigen Methoden sind jedoch für bestimmte Aufgaben oder spezifische Regionen entwickelt und fehlt die Allgemeingültigkeit für die globale Anwendung.

Um die oben genannten Probleme zu lösen, hat ein Team der Technischen Universität München in Deutschland und der Universität Zürich in der Schweiz eine neue Methode zur Generierung von Satellitenbildern mit Stable Diffusion 3 (SD3) unter Berücksichtigung geographischer und klimatischer Hinweise vorgeschlagen und gleichzeitig den bisher größten und umfassendsten Fernerkundungsdatensatz EcoMapper erstellt. Dieser Datensatz enthält über 2,9 Millionen RGB-Satellitenbilddaten von 104.424 Orten auf der ganzen Welt, die von Sentinel - 2 gesammelt wurden, und deckt 15 verschiedene Landbedeckungstypen und die entsprechenden Klimarecords ab. Dies bildet die Grundlage für zwei Methoden zur Generierung von Satellitenbildern mit einem feingestimmten SD3 - Modell. Durch die Kombination von synthetischer Bildgenerierung und Klim - und Landbedeckungsdaten fördert die vorgeschlagene Methode die Entwicklung der generativen Modellierungstechniken in der Fernerkundung, füllt die Beobachtungslücken in Regionen mit anhaltender Wolkenbedeckung und bietet neue Werkzeuge für die globale Klimaanpassung und die raumbezogene Analyse.

Das Forschungsergebnis mit dem Titel "EcoMapper: Generative Modeling for Climate - Aware Satellite Imagery" wurde für die ICML 2025 ausgewählt.

Hohepunkte der Forschung: * Aufbau des bisher größten und umfassendsten Fernerkundungsdatensatzes EcoMapper mit über 2,9 Millionen Satellitenbildern  

* Entwicklung eines Text - Bild - Generierungsmodells auf der Grundlage eines feingestimmten Stable Diffusion 3, das mithilfe von Text - Hinweisen, die Klim - und Landbedeckungsdetails enthalten, realistische synthetische Bilder für bestimmte Regionen generiert 

* Entwicklung eines mehrbedingungenbasierten (Text + Bild) Modellrahmens mit ControlNet zur Klimadatenkartierung oder Generierung von Zeitreihen und zur Simulation des Landschaftswandels

Link zur Publikation:

https://go.hyper.ai/VFRWu

Downloadlink für den Datensatz:

https://go.hyper.ai/uhOIw

Mehr auf dem neuesten Stand der Forschung liegende AI - Publikationen:

https://go.hyper.ai/owxf6

Datensatz: Der bisher größte und umfassendste Fernerkundungsdatensatz

EcoMapper ist der bisher größte und umfassendste Fernerkundungsdatensatz. Er besteht aus 2.904.000 Satellitenbildern mit Klimametadaten und wurde aus 104.424 geografischen Punkten auf der ganzen Welt gesammelt. Er deckt 15 verschiedene Landbedeckungstypen ab. Wie in der folgenden Abbildung gezeigt:

Menge der jährlichen Beobachtungsdaten und Gesamtzahl der Bilder in jeder Batch (Hinweis: Einige Standorte gehen aufgrund der Anpassung der Landbedeckungsverteilung verloren)

Darunter enthält der Trainingsdatensatz 98.930 geografische Punkte, und die Beobachtungsperiode für jeden Punkt beträgt 24 Monate. Die Forscher haben für jeden Punkt im Laufe von zwei Jahren an den Tagen mit der geringsten Wolkendecke einmal pro Monat eine Beobachtung durchgeführt und schließlich eine Sequenz von 24 Bildern für jeden Punkt erhalten. Die zweijährige Beobachtungsperiode ist zufällig zwischen 2017 und 2022 verteilt.

Der Testdatensatz enthält 5.494 geografische Punkte. Die Beobachtungsperiode für jeden Ort beträgt 96 Monate (8 Jahre), von 2017 bis 2024, ebenfalls einmal pro Monat.

Räumlich gesehen beträgt die räumliche Abdeckung jeder Beobachtung etwa 26,21 Quadratkilometer. Der gesamte Datensatz deckt etwa 2.704.000 Quadratkilometer ab, was etwa 2,05 % der gesamten Landfläche der Erde entspricht. Diese Daten gewährleisten eine ausreichende räumliche und zeitliche Unabhängigkeit bei der Bewertung und ermöglichen eine robuste Bewertung der Generalisierungsfähigkeit des Modells in verschiedenen Regionen und unter unbekannten Klimabedingungen.

Darüber hinaus sind an jedem Probenahmeort die Metadaten reichhaltig, einschließlich der geografischen Position (Breiten - und Längengrad), des Beobachtungsdatums (Jahr und Monat), des Landbedeckungstyps und der Wolkenbedeckung sowie der monatlichen Durchschnittstemperatur, der Sonneneinstrahlung und des Gesamtniederschlags von NASA Power. Diese Daten zeigen die Vorteile für die Landwirtschaft, den Forstwirtschaft, die Landbedeckung und die biologische Vielfalt.

Modellarchitektur: Text - Bild - Generierungsmodell und mehrbedingungenbasiertes Generierungsmodell

Das Ziel dieser Studie ist es, Satellitenbilder zu synthetisieren, die von geografischen und klimatischen Metadaten abhängen, um eine realistische Vorhersage der Umweltbedingungen zu ermöglichen. Dazu müssen die Forscher zwei Schlüsselaufgaben lösen: die Text - zu - Bild - Generierung und die mehrbedingungenbasierte Bildgenerierung.

Die Forscher haben die Fähigkeit zweier Generierungsmodelle, Klimametadaten in die Synthese von Satellitenbildern zu integrieren, bewertet:

Das erste ist Stable Diffusion 3, ein multimodales latentes Diffusionsmodell, das CLIP - und T5 - Textencodierer integriert und eine flexible Einstellung von Hinweisen ermöglicht. Die Forscher haben Stable Diffusion 3 mit dem gesammelten Datensatz feingestimmt, so dass es realistische Satellitenbilder auf der Grundlage von geografischen, klimatischen und zeitlichen Metadaten generieren kann.

Das zweite ist DiffusionSat, ein speziell für Satellitenbilder entwickeltes Basismodell, das auf Stable Diffusion 2 aufbaut und eine spezielle Metadaten - Einbettungsschicht für numerische Bedingungen hinzufügt. Im Vergleich zu herkömmlichen Diffusionsmodellen ist dieses Modell speziell für Fernerkundungsaufgaben entwickelt und kann die wichtigen räumlichen und zeitlichen Attribute kodieren. Es verfügt über Funktionen wie Superauflösung, Bildreparatur und Zeitvorhersage.

Für die Text - zu - Bild - Generierungsaufgabe haben die Forscher Stable Diffusion 3 und DiffusionSat in verschiedenen Konfigurationen verglichen, einschließlich der feingestimmten und nicht feingestimmten Modelle, und Experimente in verschiedenen Auflösungen durchgeführt:

* Basismodell: Bewertung der beiden Modelle in einer Auflösung von 512 x 512 Pixeln ohne Feinabstimmung.  

* Feingestimmtes Modell (-FT): Bewertung der beiden Modelle in einer Auflösung von 512 x 512 Pixeln nach der Feinabstimmung mit Klimametadaten. 

* Hochauflösendes SD3 - Modell: Feinabstimmung und Test von SD3 in einer Auflösung von 1024 x 1024 Pixeln mit Klimametadaten, markiert als SD3 - FT - HR.

Für die mehrbedingungenbasierte Bildgenerierungsaufgabe haben die Forscher ein feingestimmtes Stable Diffusion 3 - Modell, das mit LoRA (Low - Rank Adaptation) verbessert wurde, ausgewählt, um die mehrbedingungenbasierte Bildgenerierungsaufgabe auszuführen. Dieses Modell wurde in einer Auflösung von 512 x 512 Pixeln trainiert und dient als Grundlage für die Generierung von hochwertigen und kontextbezogenen Bildern. Die Studie hat mithilfe der ControlNet - Technologie einen zweibedingten Mechanismus aufgebaut: * ControlNet verbessert das Diffusionsmodell, indem es explizite räumliche Steuerungen in den Generierungsprozess integriert. Diese Konstruktion stellt sicher, dass der Einfluss des Steuerblocks auf den Hauptblock am Anfang minimal ist, und funktioniert ähnlich wie ein Skip - Connection.

* Satellitenbilder als Steuersignal: Satellitenbilder der vergangenen Monate werden als Steuersignal verwendet, um die räumliche Struktur der generierten Bilder aufrechtzuerhalten und sicherzustellen, dass die Landschaft, die Stadtplanung und andere geografische Merkmale unverändert bleiben. Auf diese Weise kann das Modell die Veränderungen im Laufe der Zeit integrieren und so die Umweltveränderungen in der realen Welt widerspiegeln.  

* Klimahinweise: Mithilfe des Textbedingungenmechanismus werden die klimatischen und atmosphärischen Bedingungen für die Generierung von Satellitenbildern festgelegt.

Indem diese beiden Regulierungsfaktoren kombiniert werden, kann das Modell realistische Satellitenbilder generieren, die die Klimawandel berücksichtigen, und gleichzeitig die räumliche Konsistenz aufrechterhalten. Diese Methode unterstützt auch die Generierung von Zeitreihen und kann den Landschaftswandel unter sich ständig ändernden Klimabedingungen simulieren. Wie in der folgenden Abbildung gezeigt:

Ein Framework, das Stable Diffusion 3 und ControlNet kombiniert, ermöglicht die mehrbedingungenbasierte Generierung von Satellitenbildern

Beim Hinweisstruktur haben die Forscher zwei Arten von Hinweisen entwickelt, um die Generierung von Satellitenbildern zu steuern, nämlich räumliche Hinweise (Spatial Prompt) und Klimahinweise (Climate Prompt). Der erste dient zur Kodierung der grundlegenden Metadaten, einschließlich des Landbedeckungstyps, der Position, des Datums und der Wolkendichte, um sicherzustellen, dass die generierten Bilder mit dem geografischen und zeitlichen Kontext übereinstimmen. Der letztere fügt auf der Grundlage der räumlichen Hinweise monatliche Klimavariablen (Temperatur, Niederschlag und Sonneneinstrahlung) hinzu, um die Generierung von Bildern mit reichhaltigeren Umweltbedingungen zu ermöglichen. Beide Hinweise nutzen den Textencodierer von Stable Diffusion 3, wobei die räumlichen Informationen von CLIP verarbeitet werden und die Klimadaten von T5 encodiert werden.

Experimentelle Ergebnisse: Überlegenheit gegenüber Basismodellen, aber noch Verbesserungspotenzial

Die Forscher haben ein mehrdimensionales experimentelles System entwickelt und durch horizontale und vertikale Vergleiche und Experimente die Leistung des entwickelten Generierungsmodells bei der Generierung von klimabewussten Satellitenbildern validiert.

Zunächst haben die Forscher fünf etablierte Indizes festgelegt, einschließlich FID (Fréchet Inception Distance), LPIPS (Learned Perceptual Image Patch Similarity), SSIM (Structural Similarity Index), PSNR (Peak Signal - to - Noise Ratio) und CLIP Score. Dabei bewerten FID und LPIPS die Ähnlichkeit der Bildverteilung und den wahrnehmbaren Unterschied, SSIM und PSNR messen die strukturelle Übereinstimmung und die Rekonstruktionsqualität, und CLIP Score bewertet die Text - Bild - Übereinstimmung.

Bei der Text - zu - Bild - Generierung haben die Forscher die Leistung von Stable Diffusion 3 und DiffusionSat sowie ihrer feingestimmten Versionen (SD3 - FT und DiffusionSat - FT) und SD3 - FT - HR an 5500 geografischen Punkten verglichen und so die Wirksamkeit des entwickelten Modells validiert.

Wie in der folgenden Abbildung gezeigt. Die Basismodelle von SD3 und DiffusionSat haben die niedrigsten Bewertungen, aber das letztere ist deutlich besser als das erste, was den Vorteil der Fernerkundungsvortrainierung zeigt. Alle feingestimmten Modelle haben dagegen eine signifikante Verbesserung der Indizes. SD3 - FT ist in Bezug auf CLIP, SSIM und PSNR besser, während DiffusionSat - FT in Bezug auf FID und LPIPS hervorragender ist. SD3 - FT - HR hat den niedrigsten FID - Wert (je niedriger der FID - Wert, desto höher die Realität), nämlich 49,48, was zeigt, dass die generierten Bilder feinere Details haben.

Quantitative Vergleich der Text - zu - Bild - Generierungsmodelle

Die qualitative Analyse der Ergebnisse zeigt, dass das entwickelte Modell die regelmäßigen Text