突发洪水是地球上最反复无常且致命的气象现象之一。每年,这些突然涌现的洪水夺走 5,000 多人的生命,且袭击时往往几乎没有任何预警。虽然气象学家已经非常擅长预测飓风或季节性河流洪水等大规模事件,但突发洪水仍然是全球天气预报中一个棘手的“盲点”。
造成这种情况的原因并非缺乏计算能力,而是缺乏数据。为了训练驱动现代天气应用的深度学习模型,科学家需要历史记录。然而,突发洪水通常过于局部化且持续时间短,传统的传感器(如水位计)难以捕捉。为了弥补这一差距,谷歌研究中心(Google Research)转向了一个非常规的信息来源:地方新闻档案。
在天气预报领域,数据是准确性的生命线。对于主要河流,我们拥有物理传感器记录的数十年流量数据。但突发洪水往往发生在没有传感器的小溪、城市街道或偏远峡谷。如果没有这些洪水过去发生的时间和地点的记录,人工智能模型就无法学习预测未来洪水所需的模式。
这就是研究人员所说的“地面实况”问题。如果一棵树在森林里倒下,而没有传感器记录下震动,那它真的发生了吗?在水文学术语中,如果一场突发洪水摧毁了农村村庄的一座桥梁,但附近没有水位计,那么就计算机模型而言,该事件实际上从未发生过。这些缺失的信息使得训练全球人工智能模型来识别突发洪水的前兆几乎成为不可能。
为了解决这个问题,谷歌研究人员利用了 Gemini——该公司最先进的大语言模型——进行了一场大规模的数字考古挖掘。团队任务是让 AI 阅读跨越数十年、涉及数十种语言的 500 万篇新闻文章。
其目标是寻找关于洪水的“非结构化”报告——地方新闻片段、应急调度和社区档案——并将它们转化为“结构化”数据。Gemini 不仅仅是寻找“洪水”这个词;它还分析上下文以确定事件的确切位置、时间和严重程度。
其结果是一个名为“Groundsource”的数据集。它包含 260 万个不同的洪水事件,每个事件都带有地理标签和时间戳。这代表了我们历史记录的一次巨大飞跃,提供了一张过去水患发生地的高分辨率地图,甚至涵盖了那些物理基础设施匮乏的地区。
将语言模型用于水文学研究是一种新颖的方法。谷歌研究产品经理 Gila Loike 指出,这是该公司首次使用大语言模型(LLM)来构建这种特定类型的环境时间序列数据。
可以将其想象为一个翻译层。一篇新闻报道可能会说:“上周二,大雨导致第五大道和主街的交汇处淹没在三英尺深的水下。”Gemini 将这句话翻译成一组坐标、一个日期和一个量级。当你将此乘以数百万篇文章时,你突然拥有了一个密集的数据点网络,可以与历史卫星图像和降雨记录叠加。
通过将这些源自新闻的报告与大气数据进行对比,谷歌的深度学习模型终于可以看清“何地”背后的“为何”。它们可以识别出特定地形下的特定降雨量会导致洪水,即使附近没有一个物理传感器。
Groundsource 项目最重要的意义之一是其帮助全球南方(Global South)国家的潜力。发展中国家通常缺乏安装和维护昂贵河流观测站的预算。因此,这些地区往往最容易受到气候相关灾害的影响,且预警系统最不完善。
由于 Groundsource 依赖于新闻报道和数字档案而非物理硬件,它可以为以前属于“数据沙漠”的地区提供历史背景。通过公开这一数据集,谷歌正在为地方政府和非政府组织(NGO)提供建立其局部预警系统的基础。
虽然 Groundsource 数据集主要是研究人员和气象学家的工具,但其影响最终将触及普通智能手机用户。以下是这种预报转变对不久的将来的意义:
谷歌决定公开分享 Groundsource 研究和数据集,标志着向协作式气候人工智能的转变。通过提供之前缺失的“地面实况”,他们正在邀请全球科学界来完善这些模型。
随着气候变化增加了极端天气的频率和强度,预测不可预测事件的能力已成为关乎生存的问题。通过教会人工智能阅读新闻,我们终于赋予了它所需的背景信息,让它在水位上涨之前就能预见洪水的到来。



