Google gibt Open-Source-Hochwasserdataset Groundsource frei: Über 2,6 Millionen historische Aufzeichnungen basierend auf Nachrichtenverarbeitung aus 150 Ländern durch Gemini

Dieser Datensatz ist bereits auf HyperAI online verfügbar und kann online verwendet werden.

Das von Google Research veröffentlichte Open-Source-Hochwasserdataset Groundsource dient dazu, verifizierte Echtzeitinformationen aus unstrukturierten Daten zu extrahieren, um so die Spuren historischer Naturkatastrophen mit bisher unerreichter Genauigkeit darzustellen. Die Forscher haben über 5 Millionen Nachrichtenberichte aus mehr als 150 Ländern automatisiert verarbeitet und schließlich über 2,6 Millionen Einträge zu historischen Hochwasserereignissen zusammengestellt, was ein bisher unvergleichliches Datenvolumen und eine globale Abdeckung für die Hochwasserforschung bietet.

Unter den verschiedenen Naturkatastrophen auf der Welt ist das Hochwasser eine der wenigen Katastrophenarten, die sowohl eine hohe Häufigkeit als auch eine enorme Zerstörungskraft aufweisen. Daher ist es seit langem ein zentrales Thema in den Bereichen Hydrologie, Klimawissenschaft und Katastrophenmanagement. Von der Verbesserung von hydrologischen Vorhersagemodellen, der Analyse der Auswirkungen des Klimawandels auf die Entwicklung von Hochwässern bis hin zur Bewertung zukünftiger Hochwasserrisiken und der Verbesserung von Katastrophenpräventions- und -minderungssystemen hängen fast alle relevanten Forschungen von einer gemeinsamen Grundvoraussetzung ab – hochwertigen historischen Hochwasserdaten. Diese Daten sind sowohl der Schlüssel zur Überprüfung der Zuverlässigkeit von Modellen als auch eine wichtige Grundlage für die Risikobewertung und politische Entscheidungen.

Die traditionellen hydrologischen und meteorologischen Messstationen sind spärlich verteilt, und die Datenqualität variiert. Es ist daher schwierig, eine umfassende und hochpräzise Erfassung von Hochwasserinformationen zu gewährleisten. Derzeit gibt es nur wenige wirklich umfassende Hochwasserdatensätze. Obwohl die von der US-amerikanischen National Environmental Information Center verwaltete "Storm Event Database" ein typisches Beispiel ist, sind solche systematischen Aufzeichnungen weltweit immer noch die Ausnahme. Viele Länder haben noch keine langfristige Datenbank für Hochwasserereignisse aufgebaut. Daher weisen die bestehenden globalen Hochwasserdatensätze in Bezug auf die Abdeckung und die Vollständigkeit der Aufzeichnungen im Allgemeinen Mängel auf.

Es ist bemerkenswert, dass die Informationen zu einer großen Anzahl von Hochwasserereignissen tatsächlich seit langem in unstrukturierten Texten wie Nachrichtenberichten und Regierungsdokumenten verstreut sind. In der Vergangenheit haben einige Forschungen versucht, Daten daraus zu extrahieren, aber aufgrund des geringen Grads der Textstandardisierung und der hohen Kosten der manuellen Verarbeitung war es immer schwierig, dies in größerem Maßstab voranzutreiben. In den letzten Jahren hat die Entwicklung der generativen Künstlichen Intelligenz einen neuen Weg zur Lösung dieses Problems eröffnet.

Kürzlich hat Google Research das Hochwasserdataset Groundsource Open Source gemacht, um verifizierte Echtzeitinformationen aus unstrukturierten Daten zu extrahieren und so die Spuren historischer Naturkatastrophen mit bisher unerreichter Genauigkeit darzustellen. Die Forscher haben über 5 Millionen Nachrichtenberichte aus mehr als 150 Ländern automatisiert verarbeitet und schließlich über 2,6 Millionen Einträge zu historischen Hochwasserereignissen zusammengestellt, was ein bisher unvergleichliches Datenvolumen und eine globale Abdeckung für die Hochwasserforschung bietet.

Derzeit ist das "Groundsource Global Flood Event Dataset" im Dataset-Bereich der HyperAI-Website (hyper.ai) online und kann online verwendet werden:

https://go.hyper.ai/KO3dB

Link zur Studie:https://eartharxiv.org/repository/view/12083/

Basierend auf 5 Millionen Nachrichtenartikeln

Über 2,6 Millionen Hochwasserberichte gefiltert

Der Aufbau des Groundsource-Datasets folgt einem standardisierten automatisierten Prozess. Bei der Datenerfassung und Entitätserkennung auf globaler Ebene hat das Forschungsunternehmen einige Infrastrukturen von Google verwendet, wie das WebRef-Namensentitätserkennungssystem und das Read Aloud-Tool. Die Logik der Datenextraktion, der Prompt-Frame für das Large Language Model und die Regeln für die raumzeitliche Aggregation sind jedoch öffentlich dokumentiert. Daher kann dieser Prozess auch in verschiedenen technologischen Umgebungen wiederholt werden, nachdem er durch Open-Source-Algorithmen oder andere Sprachmodelle ersetzt wurde.

Der Datenaufbau beginnt zunächst mit der Sammlung von Nachrichteninformationen. Das Forschungsunternehmen hat mit Hilfe von Webcrawlern veröffentlichte Nachrichtenberichte seit 2000 gesammelt und für jeden Artikel eine Relevanzbewertung für das Thema Hochwasser mit WebRef berechnet. Die Forscher haben die Schwelle auf 0,6 festgelegt und zunächst etwa 9,5 Millionen Webseiten ausgewählt, aber die manuelle Stichprobenprüfung hat gezeigt, dass nur etwa die Hälfte davon tatsächlich über Hochwasserereignisse berichtet hat, während der Rest nur im Hintergrund erwähnt wurde.

Anschließend beginnt die Textextraktionsphase. Das System entfernt automatisch Werbung und Navigationslemente von den Webseiten und behält nur den Artikeltext und das Veröffentlichungsdatum bei. Es filtert auch Sprachen, die nicht analysiert werden können, oder Websites, die nicht zugänglich sind. Schließlich bleiben etwa 7,5 Millionen nutzbare Artikel übrig. Alle nicht englischen Texte werden in Englisch übersetzt, und die geografischen Ortsnamen werden durch Entitätserkennung extrahiert, um eine Kandidatenliste für Orte zu erstellen.

Die Identifizierung konkreter Hochwasserereignisse aus Nachrichtentexten ist der komplexeste Schritt im gesamten Prozess. In den Berichten treten oft mehrere Orte und unklare Zeitangaben auf, wie "gestern" oder "letzte Woche". Deshalb hat das Forschungsunternehmen für das Large Language Model Gemini einen strukturierten Prompt-Frame entwickelt und ihn anhand von 250 manuell annotierten Artikeln eingestellt. Mit Google Read Aloud werden die Originaltexte aus 80 Sprachen extrahiert und über die Cloud Translation API in Englisch standardisiert. Das Modell muss nacheinander 4 Aufgaben erfüllen: Entscheiden, ob der Artikel ein echtes Hochwasserereignis beschreibt, das Ereignisdatum extrahieren und standardisieren, die konkreten Orte, die von Hochwasser betroffen sind, identifizieren und die Ortsnamen mit standardisierten geografischen Kennungen abgleichen.

In diesem Prozess wurden etwa 5 Millionen von 7,5 Millionen Artikeln als Artikel mit echten Hochwasserereignissen identifiziert. Basierend auf manuell annotierten Stichproben beträgt die Genauigkeit der Ereignisidentifizierung etwa 75 %, die Recall-Rate etwa 90 %. Die Genauigkeit der Datum- und Ortsextraktion ist etwas geringer, aber es können dennoch effektive raumzeitliche Hinweise bereitgestellt werden.

Um diese Ereignisse auf einer Karte zu lokalisieren, wird das System auch die Orte geokodieren: Wenn es möglich ist, einen vorhandenen geografischen Gegenstand abzugleichen, wird dessen räumliche Grenze direkt aufgerufen; wenn kein Abgleich möglich ist, wird der Ortsname über einen Geokodierungsdienst in Koordinaten umgewandelt und bei Bedarf eine kleine Pufferzone erstellt, um eine räumliche Analyse durchzuführen.

Schließlich fasst das Forschungsunternehmen die Aufzeichnungen von fortlaufenden Berichten basierend auf geografischen Kennungen und Zeitinformationen zu einem einzigen Hochwasserereignis zusammen und führt eine Qualitätskontrolle durch, um Aufzeichnungen mit zu großen Bereichen oder ungewöhnlichen Zeitangaben auszuschließen. Nach dieser Reihe von Verarbeitungen werden schließlich über 2,64 Millionen unabhängige Aufzeichnungen erhalten, von denen jede einer Hochwasserbeobachtung entspricht, die in einer bestimmten Zeit und an einem bestimmten Ort in einem Nachrichtenbericht festgehalten wurde.

Datasetbewertung:

82 % der Ereignisse sind für die Analyse wertvoll

Stadtteilgenauigkeit füllt die Lücken in der Aufzeichnung kleinerer Katastrophen

Um die Zuverlässigkeit des Groundsource-Datasets zu bewerten, analysiert diese Studie das Dataset von drei Aspekten: Genauigkeit, raumzeitlicher Verteilung und Übereinstimmung mit externen Datenbanken und vergleicht es mit den beiden Datenbanken des Global Disaster Alert and Coordination System (GDACS) und der Dartmouth Flood Observatory (DFO).

Bei der Genauigkeitsbewertung haben die Forscher 400 Aufzeichnungen zufällig ausgewählt und die Zeit- und Ortsinformationen anhand der ursprünglichen Nachrichtenquellen überprüft. Die Ergebnisse zeigen, dass streng genommen 60 % der Aufzeichnungen "richtig" sind (95 %-Konfidenzintervall ±5 %); wenn man die Aufzeichnungen mit geringen Abweichungen, die dennoch für die Analyse wertvoll sind, mit einbezieht, können etwa 82 % der Ereignisse für die nachfolgende Analyse verwendet werden. Die restlichen etwa 18 % der Fehler stammen hauptsächlich aus räumlichen Positionsabweichungen aufgrund von Ortsnamenmehrdeutigkeiten und Fehlinterpretationen von relativen Zeitangaben wie "gestern" oder "letzte Woche".

Bezüglich der raumzeitlichen Verteilung zeigt das Dataset eine deutliche "Neuigkeitsverzerrung". Wie in der folgenden Abbildung gezeigt, sind etwa 64 % der Aufzeichnungen zwischen 2020 und 2025 konzentriert, wobei das Jahr 2025 allein 15 % ausmacht. Dieser Trend spiegelt eher das schnelle Wachstum der digitalen Nachrichtenmedien wider als die Zunahme der Hochwasserereignisse selbst.

Zeitliche Verteilung des Groundsource-Datasets

Die räumliche Verteilung wird ebenfalls von der Medienlandschaft beeinflusst. In Regionen mit vielen Nachrichtenberichten gibt es mehr Ereignisaufzeichnungen, während die Repräsentanz in Regionen mit wenigen digitalen Nachrichten oder unzureichender Sprachunterstützung geringer ist. Dennoch zeigt das Dataset deutlich Hochwasserregionen wie Europa, Südasien und Südostasien. Die räumliche Verteilung stimmt weitgehend mit den von GDACS aufgezeichneten bedeutenden Hochwasserorten überein.

Globale räumliche Verteilung der extrahierten Hochwasserereignisse

Trotz der Berichtsverzerrung zeichnet sich Groundsource in Bezug auf die räumliche Auflösung aus. Die Statistik zeigt, dass die durchschnittliche Abdeckung der extrahierten Ereignisse 142 Quadratkilometer beträgt, wobei 82 % der Aufzeichnungen weniger als 50 Quadratkilometer betragen. Viele Ereignisse können auf die Ebene von Stadtteilen oder Gemeinden verfeinert werden, um so lokalisierte Hochwasserereignisse zu erfassen, die von traditionellen globalen Katastrophendatenbanken oft ignoriert werden.

Geografische Verteilung der extrahierten Hochwasserereignisse

Bei der Vollständigkeitsbewertung vergleicht die Studie Groundsource mit dem Global Disaster Alert and Coordination System (GDACS) und der Dartmouth Flood Observatory (DFO) durch raumzeitliche Übereinstimmung. Die Ergebnisse zeigen, dass die Recall-Rate für GDACS-Ereignisse seit 2020 zwischen 85 % und 100 % liegt. In Regionen mit einer guten Medieninfrastruktur wie den USA beträgt die Übereinstimmungsrate 96 % (GDACS) und 91 % (DFO). Darüber hinaus besteht ein deutlicher Zusammenhang zwischen der Recall-Rate und dem Ausmaß der Katastrophenauswirkungen: Die Recall-Rate für bedeutende Hochwasserereignisse liegt bei nahezu oder über 90 %.

Vergleich von Groundsource mit GDACS und DFO

Insgesamt kann Groundsource zwar keine vollkommen ausgeglichene globale Abdeckung bieten, aber dank über 2,6 Millionen Aufzeichnungen und einer hohen räumlichen Auflösung füllt es die Lücken in der Aufzeichnung kleinerer und lokaler Hochwasserereignisse in traditionellen Katastrophendatenbanken auf und bietet eine neue Datenquelle für die globale Hochwasserforschung.

AI-gestützte Hochwasserdatenforschung

Die Extraktion standardisierter Informationen zu Hochwasserereignissen aus unstrukturierten Texten mithilfe von Large Language Modellen wird allmählich zu einer wichtigen Methode in der Hochwasserforschung.

In der akademischen Welt haben viele Forschungsgruppen kontinuierlich in diese Richtung geforscht. Die Forscher des MIT haben angesichts der häufig auftretenden Probleme mit unklaren Zeitangaben und Ortsnamenmehrdeutigkeiten bei der Extraktion von Hochwasserereignissen durch Large Language Modelle eine verbesserte Prompt-Strategie und eine Methode zur Kontextbeziehung vorgeschlagen. Indem sie das Modell mit historischen hydrologischen Beobachtungsdaten feinabgestimmt haben, haben sie die Genauigkeit der Extraktion von Hochwasserereignisdaten auf über 80 % gesteigert und ein mehrsprachiges Anpassungsmodul entwickelt, damit das Modell stabiler mit Nachrichtentexten in verschiedenen Sprachen umgehen kann und so ein Dataset mit Hochwasserereignissen aus mehreren Regionen aufgebaut werden kann.

Titel der Studie: Generating Physically-Consistent Satellite Imagery for Climate Visualizations

Link zur Studie:

https://ieeexplore.ieee.org/document/10758300

Das Forschungsunternehmen der National University of Singapore hat die Anwendungsgrenzen der Forschung weiter erweitert.