图像地理定位新突破,缅因大学/谷歌/OpenAI等提出LocDiff框架,实现无需网格与参考库的全球级精准定位
缅因大学、谷歌公司与哈佛大学等组成的联合团队提出了「球面谐波狄拉克函数(SHDD)」及集成框架 LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位,为该领域提供了突破性的技术路径。
位置解码技术通过从上下文信息中推断地理位置,广泛应用于轨迹合成、建筑物轮廓分割和图像地理定位等领域。其中,图像地理定位将视觉内容与地理坐标关联,成为研究重点。它通过分析图像特征预测经纬度坐标,适用于野生动物监测、城市街景等数据类型。
然而,与成熟的图像分类任务不同,图像地理定位面临复杂的非线性映射问题,难以精准建模。早期研究采用回归模型直接映射图像特征与经纬度,但在全球尺度任务中,稳定性差,预测误差常达数百公里。为克服这一问题,研究者提出「离散化转导」方法,将定位任务转为分类或检索问题。然而,这些方法在空间分辨率和地理覆盖度上仍存在局限。
近年来,以扩散模型为代表的生成式技术因具备出色的连续数据分布建模能力,为地理定位研究开辟了新路径。基于此,缅因大学、得克萨斯大学、佐治亚大学、马里兰大学、谷歌公司、OpenAI 与哈佛大学的联合团队提出了创新方法。他们发现,传统生成方法失效的根本原因在于地理坐标的空间属性不同于常规数据:坐标位于嵌入式黎曼流形(embedded Riemannian manifold)而非欧几里得空间(Euclidean space),直接施加噪声会导致投影畸变;同时,原始坐标缺乏多尺度空间信息,难以支撑对复杂分布的建模。针对这两大问题,该团队提出了「球面谐波狄拉克函数(Spherical Harmonics Dirac Delta,SHDD)」及集成框架 LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位,为该领域提供了突破性的技术路径。
相关研究成果以「LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space」为题,已收录于 NeurIPS 2025。
- 论文地址:https://openreview.net/forum?id=ghybX0Qlls
数据集:以 GeoCLIP 为基准,扩展三大全球尺度典型图像地理定位数据集
为保障研究结果的可比性与可靠性,研究人员遵循图像地理定位领域广泛采用的 GeoCLIP 模型的基准设置。训练阶段使用 MP16 数据集(MediaEval Placing Tasks 2016),该数据集包含 472 万张带有精确地理标注的图像,为模型训练提供充分的数据支持。测试阶段则选用三个全球尺度的典型图像地理定位数据集:Im2GPS3k、YFCC26k 和 GWS15k。
需要指出的是,测试集 Im2GPS3k 与 YFCC26k 在数据分布上与训练集 MP16 较为接近,且部分图像可能存在重叠。这一特性使基于检索的方法(如 GeoCLIP)在匹配过程中具有一定优势,有助于提升其检索准确率。在模型推理阶段,研究人员借鉴 GeoCLIP 与 SimCLR 等主流模型采用的策略,对每张测试图像生成 16 个增强版本,并以其多次采样的地理中心作为最终预测位置。该策略显著提升了模型性能。例如,在对比实验中,若取消图像增强与结果平均这两个步骤,GeoCLIP 在 Im2GPS3k 数据集的 1 公里尺度定位准确率将从 14% 下降至 10% 以下。
为全面评估模型在不同空间尺度下的定位能力,该研究设定了 5 个评估层级:街道级(1 公里)、城市级(25 公里)、区域级(200 公里)、国家级(750 公里)和大陆级(2,500 公里),通过统计预测落入真实位置邻域范围内的样本比例来量化模型表现。
LocDiff:面向球面位置生成的潜扩散模型
LocDiff 模型的核心目标是构建适配球面位置生成的潜扩散框架,其核心思路是构建一个能够克服稀疏性与非线性问题的位置编码空间,具体通过球面谐波狄拉克函数(SHDD)编码-解码框架、条件 Siren-UNet(CS-UNet)架构及高效计算策略的深度集成实现。
为明确技术方向,该研究首先从数学层面界定了理想位置编码空间(Position Encoding Space)应具备的核心属性:设坐标空间 C 为嵌入三维欧氏空间的单位球面,以角坐标系(θ, φ)完成参数化;理想的位置编码器PE需是从 C 到高维空间 ℝ^d 的单射函数(保证编码唯一性),解码器 PD 则需是从 ℝ^d 映射回 C 的满射函数(保证解码完整性)。更关键的是,编码空间需通过连续的差异度量ℰ实现密集填充,同时解码器需满足「编码空间微小扰动仅引发球面坐标微小变化」的稳定性要求——这两大属性正是破解现有技术瓶颈的关键。
然而现有方法在实现上述目标时面临双重困境:若采用的位置编码空间本身呈稀疏特性,扩散模型将难以在其中进行稳定的扩散过程,直接导致训练收敛困难与解码精度低下;若转而使用密集的位置嵌入空间(Location Embedding Space),虽能支撑扩散过程的顺利进行,但位置编码与坐标空间之间存在的高度非线性映射,会使得「从嵌入结果反推正确地理坐标」的任务陷入僵局——嵌入空间中距离的最小化,往往无法对应地理空间中距离的最小化。
为破解这一困境,研究人员提出了 SHDD 编码方案,其创新思路是将球面点 (θ₀, φ₀) 先转化为球面谐波狄拉克函数 δ_(θ₀, φ₀),再将该函数编码为球谐函数系数向量,最终形成 SHDD 表征。在实际应用中,通过设定球谐函数的最大阶数 L,可将理论上的无限维系数向量截断为 (L+1)² 维的紧凑表征,且 L 值越大,表征捕获的空间信息越精细,为多尺度定位需求提供了灵活支撑。
SHDD 编码空间(SHDD Encoding Space)天然具备密集特性:其中的每个点 e 都唯一对应一个球面函数 Fₑ,该函数与真实位置所对应球面谐波狄拉克函数 δ_(θ₀, φ₀)的差异,通过反向KL散度进行量化,这一差异度量 ℰ 正是研究所需的连续度量标准。更重要的是,SHDD KL 散度与 Wasserstein-2 距离存在明确约束关系,从数学上保证了编码空间的差异与球面概率分布差异的一致性,为解码稳定性奠定基础。与此同时,SHDD 编码有效解决了传统方法的非线性问题,相关热图对比直观显示,相较于传统嵌入方法,SHDD 所度量的球面距离变化更为平滑,这种平滑性大幅降低了解码过程中的误差传递风险,为精准定位提供了保障。
图像地理定位的多尺度潜在扩散
基于 SHDD 表征的特性,研究人员设计了模态搜索解码器以实现高效解码。该解码器利用反向 KL 散度的模态搜索本质,通过寻找球面函数概率质量最集中的区域完成坐标反推,其中超参数 ρ 用于平衡解码分辨率与稳定性——ρ 值较大时解码结果对局部峰值不敏感但精度较粗,ρ 值较小时精度提升但易受局部噪声影响。这种无参数设计具备双重优势:既避免了解码阶段引入额外损失,又彻底摆脱了对预设球面划分或外部参考图像库的依赖,打破了传统方法的应用局限。
作为 LocDiff 的条件生成骨干网络,如下图所示,CS-UNet 架构以 SirenNet 为基础模块,这一选择源于球谐函数系数本质是正余弦函数的叠加,而 SirenNet 的正弦激活函数能有效保持梯度流动,适配球谐特征的传播需求。CS-UNet 的核心单元 C-Siren 通过精巧的特征融合机制实现高效条件去噪:输入潜向量 x、图像条件嵌入 e_I 与扩散步骤 t 后,先将 x 和 e_I 投影为隐藏向量,再将离散扩散时间步 t 转化为尺度与偏移向量完成无条件去噪,最后融合图像条件与去噪特征,输出调整后的特征传递至下一级模块,形成完整的条件引导链路。
C-Siren 与 CS-UNet 的体系结构
LocDiff 的训练流程遵循标准 DDPM 框架,以「图像-球面位置」为训练样本对:首先通过冻结的 CLIP 编码器将图像转换为固定维度的嵌入表示 e_I,对应的球面位置(θ, φ)则编码为 SHDD 表征并存储备用;前向传播阶段,球面谐波狄拉克函数被逐步添加噪声,直至转化为纯高斯噪声向量;反向传播阶段,CS-UNet 在图像嵌入 e_I 的引导下,从噪声向量中逐步恢复原始 SHDD 表征。训练所采用的损失函数为 SHDD KL 散度,相较于传统球面 MSE 损失,它不仅数值更稳定,还能有效保留多尺度空间信息,助力模型学习全局与局部特征。
推理阶段,模型从随机高斯噪声出发,在输入图像的嵌入特征引导下,通过 CS-UNet 逐步生成 SHDD 系数向量,最终经模态搜索解码器转化为球面坐标(θ, φ)。在实际工程实现中,SHDD KL 散度的计算与模态搜索的积分操作,均通过离散球面锚点集的求和完成近似计算,训练时随机采样全球范围锚点以避免过拟合。
聚焦 3 大维度,LocDiff 在大多数测试场景下表现优异
为系统评估 LocDiff 模型性能,本研究从定位精度、泛化能力和计算效率 3 个维度展开实验。所有实验均遵循领域标准设置以确保公平比较。
实验表明,如下表所示,LocDiff 在大多数测试场景下表现优异。为进一步提升细粒度性能,研究人员设计了混合模型 LocDiff-H,通过将 GeoCLIP 的检索范围限制在 LocDiff 生成位置的 200 公里半径内,有效结合了 2 类方法的优势。LocDiff-H 在 Im2GPS3k 和 YFCC26k上表现突出,但在 GWS15k 上却不及原始 LocDiff,特别是在细粒度尺度上。这主要是由于 GWS15k 与训练集存在显著分布差异,导致 GeoCLIP 的归纳偏置产生负面影响。
使用 GeoCLIP 的主要计算结果
如下表所示,在与同类生成式模型的对比中,LocDiff 在 OSM-5M 和 YFCC-4k 数据集上均优于 DiffR³、FMR³ 等对比模型,验证了多尺度潜扩散方法的优势。
LocDiff 与现有生成方法的比较
泛化能力分析揭示了生成式方法的独特价值。基于检索的 GeoCLIP 严重依赖图库的空间覆盖度:当测试集分布与训练集不匹配时,其性能显著下降;即使使用百万级均匀网格点作为候选位置,其在 200 公里及以上尺度的表现仍远不及使用原始图库。这反映出该方法对未见过位置的适应能力有限。
相比之下,LocDiff 展现出稳健的泛化能力。如下表所示,实验验证表明,无论锚点采用 MP16 图库位置还是均匀网格点,也无论锚点数量从 2.1 万增至 100 万,LocDiff 的性能均保持稳定,进一步印证了其鲁棒性。
泛化性实验结果
计算效率方面,LocDiff 表现出色。SHDD 编码/解码作为确定性闭式操作,时间复杂度接近常数级,空间复杂度为线性。训练时 SHDD 编码可预计算为嵌入查找表,解码通过高效的矩阵乘法和 argmax 操作实现。特别地,多尺度 SHDD 表征显著加速了扩散过程收敛——LocDiff 在 YFCC 数据集上仅需约 200 万步即可收敛,而同类最佳模型需要 1,000 万步。
LocDiff 中单元操作的时间效率
图像地理定位技术的学术突破与产业新生
图像地理定位技术作为连接视觉信息与物理世界的重要桥梁,近年来在学术研究与应用落地方面均取得了显著进展。
学术界方面,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队在球面位置编码方面取得重要突破。针对传统方法中存在的非线性映射难题,他们提出一种基于流形扩散的改进方案,将球谐函数与流形学习相结合。这一创新使模型在极地、大洋等数据稀疏区域的定位性能大幅提升,在 100 公里尺度上的准确率提高了 23%。该研究还引入了自适应尺度调节机制,有效改善了模型在跨区域场景下的泛化能力。
论文标题:LocDiffusion: Identifying Locations on Earth by Diffusing in the Spherical Harmonics Dirac Delta Space论文链接:https://arxiv.org/abs/2503.18142
与此同时,阿联酋数字大学提出了「地理思维链」(GeoCoT)框架——一个旨在增强大视觉模型地理定位推理能力的新型多步推理范式。GeoCoT 通过模拟人类地理定位的认知过程,逐步整合上下文信息与空间线索,显著提升了定位性能。基于 GeoEval 指标的实验表明,该框架在保持良好可解释性的同时,将地理定位准确率提升了多达 25%。论文标题:Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework论文链接:https://arxiv.org/pdf/2502.13759
这些学术理念正快速转化为实际生产力,推动着产业界的创新实践。2023 年 NASA 创业者挑战赛获胜者 PRISM Intelligence 公司开发的地理空间智能平台颇具代表性。该平台运用辐射场技术将二维遥感图像转化为高保真三维数字环境,结合 AI 驱动的语义分割与动态优化算法,实现了地理空间数据的自然语言交互。
Google Earth 团队则利用全球海量街景数据训练的生成模型,实现了在图像引导下的精准位置预测,并能够自动补全因天气、施工等因素缺失的图像信息。这一技术使谷歌地球的街景更新效率提升 3 倍,覆盖范围也扩展至更多偏远地区。
这些产业实践不仅验证了学术研究的应用价值,更通过真实场景的反馈为理论创新提供了新方向,持续推动图像地理定位技术向更精准、更高效和更普惠的方向发展。
参考链接:
1.https://science.nasa.gov/science-research/science-enabling-technology/technology-highlights/entrepreneurs-challenge-winner-prism-is-using-ai-to-enable-insights-from-geospatial-data/
2.https://ai.google.dev/competition/projects/prism
本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。