首页文章详情

基于Gemini处理150国新闻,谷歌开源洪水数据集Groundsource,覆盖超260万历史记录

超神经HyperAI2026-03-18 12:15
该数据集已上线至 HyperAI,支持在线使用

Google Research 发布的开源洪水数据集 Groundsource,用于从非结构化数据中提取经过验证的地面实况信息,从而以前所未有的精度绘制出历史灾害的足迹。研究人员对来自 150 多个国家的 500 多万篇新闻报道进行自动化处理,最终整理出超过 260 万条历史洪水事件记录,为全球洪水研究提供了前所未有的数据规模与覆盖度。

在全球各类自然灾害中,洪水是少数兼具高发生频率与巨大破坏力的灾害类型之一,因此长期以来始终是水文学、气候科学与灾害管理领域关注的核心议题。从改进水文预报模型、分析气候变化对洪水演变的影响,到评估未来洪水风险、完善防灾减灾体系,几乎所有相关研究都依赖于同一个基础条件——高质量的历史洪水数据。这些数据既是检验模型可靠性的关键参照,也是支撑风险评估与政策决策的重要依据。

传统水文与气象观测站点分布稀疏,数据质量也存在差异,很难支撑大范围、高精度的洪水信息收集。目前真正体系完备的洪水数据集屈指可数,尽管美国国家环境信息中心维护的「风暴事件数据库」是其中的典型案例,但在全球范围内,这类系统化记录仍属少数,许多国家尚未建立长期的洪水事件数据库。因此,现有全球洪水数据集在覆盖范围与记录完整性方面普遍存在不足。

值得注意的是,大量洪水事件的信息其实长期散落在新闻报道和政府文件等非结构化文本之中。过去虽有研究尝试从中提取数据,但受限于文本标准化程度低、人工处理成本高,始终难以规模化推进。近年来生成式人工智能的发展,为这一问题提供了新的突破路径。

近期,Google Research 开源了洪水数据集 Groundsource,用于从非结构化数据中提取经过验证的地面实况信息,从而以前所未有的精度绘制出历史灾害的足迹。研究人员对来自 150 多个国家的超 500 万篇新闻报道进行自动化处理,最终整理出超过 260 万条历史洪水事件记录,为全球洪水研究提供了前所未有的数据规模与覆盖度。

目前,「Groundsource 全球洪水事件数据集」已上线至 HyperAI 官网(hyper.ai)的数据集板块,支持在线使用:

https://go.hyper.ai/KO3dB

论文地址:https://eartharxiv.org/repository/view/12083/

基于 500 万篇新闻文章,

筛选超过 260 万条洪水报道

Groundsource 数据集的构建遵循一套标准化的自动化流程,在全球范围的数据采集与实体识别阶段,研究团队使用了谷歌的部分基础设施,例如 WebRef 命名实体识别系统和 Read Aloud 工具。不过,数据提取逻辑、大语言模型提示框架以及时空聚合规则均已公开记录,因此在替换为开源算法或其他语言模型后,这一流程仍可在不同技术环境中复现。

数据构建首先从新闻信息的收集开始。研究团队利用网络爬虫汇集了 2000 年以来发布的公开新闻报道,并通过 WebRef 为每篇文章计算洪水主题相关性评分。研究人员将阈值设定 0.6,初步筛选出约 950 万个网页,但人工抽检显示,其中只有约一半真正报道了洪水事件,其余只是背景提及。

随后进入文本提取阶段。系统自动从网页中剥离广告和导航元素,只保留文章正文与发布日期,并过滤掉无法解析的语言或无法访问的网站,最终得到约 750 万篇可用文章。所有非英文文本会被翻译为英文,并通过实体识别提取其中的地理位置名称,形成候选地点库。

从新闻文本中识别具体洪水事件是整个流程中最复杂的环节。报道中常出现多个地点和模糊时间表达,例如「昨日」或「上周」。为此,研究团队为 Gemini 大语言模型设计了一套结构化提示框架,并通过 250 篇人工标注文章进行调试,使用Google Read Aloud 从 80 种语言中提取原始文本,并通过 Cloud Translation API 将其标准化为英语。模型需要依次完成 4 个任务:判断文章是否描述真实洪水事件、提取并标准化事件时间、识别受洪水影响的具体地点,以及将地名匹配到标准地理标识。

在这一流程下,750 万篇文章中有约 500 万篇被识别为包含真实洪水事件。以人工标注样本为基准,事件识别的精准率约为 75%,召回率约为 90%;日期和地点提取的准确度略低,但仍能提供有效的时空线索。

为了将这些事件定位到地图上,系统还会对地点进行地理编码:若能够匹配到已有地理实体,则直接调用其空间边界;若无法匹配,则通过地理编码服务将地名转换为坐标,并在必要时生成小范围缓冲区,以便进行空间分析。

最后,研究团队根据地理标识和时间信息,将连续报道的记录合并为单一洪水事件,并进行质量控制,剔除范围过大或时间异常的记录。经过这一系列处理,最终得到超过 264 万条独立记录,每一条都对应一次在特定时间和地点被新闻报道捕捉到的洪水观测。

数据集评估:

82% 事件具分析价值,

街区级精度弥补小规模灾害记录空白

为评估 Groundsource 数据集的可靠性,该研究从精准率、时空分布以及与外部数据库的一致性三个方面进行分析,并与全球灾害警报与协调系统(GDACS)和达特茅斯洪水观测站(DFO)两大数据库进行对比。

在精准率评估中,研究人员随机抽取 400 条记录,回溯原始新闻来源核对时间与地点信息。结果显示,严格意义上的「准确」记录占 60%(95% 置信区间 ±5%);若将存在轻微偏差但仍具分析价值的记录计入,则约 82% 的事件仍可用于后续分析。其余约 18% 的错误主要来自地名歧义导致的空间定位偏差,以及对「昨日」「上周」等相对时间表达的误读。

在时空分布上,数据集呈现明显的「近期偏差」。如下图所示,约 64% 的记录集中在 2020 年至 2025 年之间,其中 2025 年单年占 15%。这一趋势更可能反映数字新闻媒体的快速增长,而非洪水事件本身的增加。

Groundsource 数据集的时间分布

空间分布同样受到媒体生态影响,在新闻报道密集的地区事件记录更多,而在数字新闻稀缺或语言支持不足的地区代表性较低。不过,数据仍清晰呈现出欧洲、南亚和东南亚等洪水高发区域,其空间分布与 GDACS 记录的重大洪水地点高度一致。

提取的洪水事件的全球空间分布

尽管存在报道偏差,Groundsource 在空间分辨率方面表现突出。统计显示,提取事件的平均覆盖范围为 142 平方公里,其中 82% 的记录小于 50 平方公里,许多事件可以细化到街区或社区尺度,从而捕捉到传统全球灾害数据库往往忽略的本地化洪水。

提取的洪水事件的地理区域分布

在完整性评估中,研究通过时空匹配将 Groundsource 与全球灾害警报和协调系统(GDACS)和达特茅斯洪水观测站(DFO)进行对比。结果显示,自 2020 年以来,对 GDACS 事件的召回率达到 85% 至 100%;在媒体基础设施完善的地区,如美国,匹配率分别达到 96%(GDACS)和 91%(DFO)。此外,召回率与灾害影响程度明显相关:重大洪水事件的召回率接近或超过 90%。

Groundsource 与 GDACS 和 DFO 的对比

总体来看,Groundsource 虽无法提供完全均衡的全球覆盖,但凭借超过 260 万条记录和较高的空间分辨率,弥补了传统灾害数据库在小规模和本地化洪水事件记录上的不足,为全球洪水研究提供了一种新的数据来源。

AI 驱动洪水数据研究

通过大语言模型从非结构化文本中提取标准化的洪水事件信息,正逐渐成为洪水研究领域的重要方法。

在学术界,不少研究团队围绕这一方向展开持续探索。MIT 的研究人员针对大语言模型在洪水事件提取中常见的时间模糊与地名歧义问题,提出了改进的提示词策略和上下文关联方法。通过引入历史水文观测数据对模型进行微调,团队将洪水事件日期提取的准确率提升到 80% 以上,并开发了多语言适配模块,使模型能够更稳定地处理不同语种的新闻文本,从而构建出覆盖多个地区的洪水事件数据集。

论文标题:Generating Physically-Consistent Satellite Imagery for Climate Visualizations

论文链接:

https://ieeexplore.ieee.org/document/10758300

新加坡国立大学研究团队进一步拓展了研究的应用边界。该团队将 AI 从新闻中提取的历史洪水事件,与城市排水管网数据和高精度地形信息相结合,建立了城市尺度的洪水风险评估模型。通过分析不同区域洪水发生频率、影响范围与城市基础设施之间的关系,研究人员能够更清晰地识别潜在风险区域,并为城市防洪规划提供更具针对性的参考,同时也尝试评估极端气候条件下未来洪水风险的变化趋势。

论文标题:Forecasting fierce floods with transferable AI in data-scarce regions

论文链接:

https://www.cell.com/the-innovation/fulltext/S2666-6758(24)00090-0

相关研究的进展也开始向产业界延伸。微软研究院与 NASA 合作开发了一套 AI 驱动的洪水风险预测平台 Hydrology Copilot。该系统整合了新闻提取的洪水事件数据、卫星遥感信息以及实时水文监测数据,通过机器学习模型对洪水发生概率和潜在影响范围进行预测。目前,该平台已在美国及多个国家开展试点应用,用于支持地方应急管理部门改进洪水预警与响应流程。

总体来看,从新闻文本中自动提取洪水事件信息,正在逐渐成为补充传统观测数据的重要来源。随着模型能力和数据规模的不断提升,这类方法有望为全球洪水风险研究提供更加丰富和高分辨率的数据基础。

参考链接:1.https://www.geekwire.com/2025/microsoft-nasa-ai-hydrology-copilot-floods

本文来自微信公众号“HyperAI超神经”,作者:田小幺,编辑:李宝珠,36氪经授权发布。