首页文章详情

视觉GPT时刻来了,DeepMind用Vision Banana证明「生成即理解」,何恺明、谢赛宁都参与

机器之心2026-04-24 15:57
生成与理解被彻底打通?

前两天,OpenAI 的 ChatGPT Images 2.0 惊艳了世界,其在实测中的表现整体上已经超过了之前 SOTA 的 Nano Banaba Pro。

就在人们还在惊叹于 AI 图像生成的卓越能力时,谷歌 DeepMind 却放出了一篇重量级论文《Image Generators are Generalist Vision Learners》,其中系统性地证明了之前许多人已经有过的直觉:图像生成器就是强大的通用视觉学习器

要想理解物理世界,何必依靠专用模型?

论文标题:Image Generators are Generalist Vision Learners

论文地址:https://arxiv.org/abs/2604.20329v1

项目地址:https://vision-banana.github.io/

Google DeepMind 的研究发现,类似于 LLM 的生成式预训练会让模型涌现出语言理解和推理能力,图像生成训练能使模型学习到强大且通用的视觉表征,从而在各种视觉任务中实现 SOTA 的性能。

基于这一发现,他们还基于 Nano Banana Pro 构建了一个通用模型Vision Banana,并取得了相当亮眼的表现,媲美甚至超越了零样本领域专家模型,比如用于分割任务的 Segment Anything Model 3、用于深度估计的 Depth Anything 系列。

作者 Shangbang Long 的分享推文

这项研究意义重大,其表明图像生成可以作为视觉任务的统一通用接口。DeepMind 也在论文中表示:「我们可能正见证计算机视觉领域的重大范式转变,其中生成式视觉预训练在构建同时支持生成和理解的基础视觉模型中扮演核心角色。」

这篇论文由多位核心作者和贡献者共同完成,另外,我们还能看到谢赛宁和何恺明等熟悉的名字。谢赛宁连发数推,强调了通用模型的崛起与超越:像 Vision Banana 这样的单一多模态通用模型,在图像分割、边缘检测等底层感知任务上首次击败了 SAM3 和 DepthAnything3 等顶尖的领域专用模型。以往被视为不同问题的感知任务,现在都可以通过简单的提示词在统一的系统下完成。

下面我们就来详细看看这项重量级研究成果。

研究背景:生成即理解的猜想由来已久

在 AI 研究领域,一个长期存在的直觉是:能够创造视觉内容的模型,理应也能理解视觉内容。毕竟,若模型不能深刻理解物体的形状、语义和空间关系,它又怎能生成如此高保真、语义精确的图像?

然而现实却与这一直觉存在明显落差。长期以来,视觉表征学习领域的主流方法并不属于生成式建模家族,而是以有监督的判别式学习、对比学习、Bootstrapping 和自编码等方法为主导。尽管早期的生成式视觉预训练探索展现出了有潜力的扩展行为,其效果却始终落后于非生成式模型。

在自然语言处理领域,这一局面早已被打破。

GPT 系列模型证明,生成式预训练(即让模型预测下一个 token)能够让 LLM 涌现出强大的语言理解与推理能力,再经过指令微调,模型就能在各类任务上实现 SOTA 性能。

DeepMind 的研究者们不禁发问:图像生成能否扮演与文本生成类似的角色?图像生成器,是不是也就是通用视觉学习器?

核心方法:把所有视觉理解任务「伪装」成画图任务

该论文提出的Vision Banana,基座就是那个名为 Nano Banana Pro (NBP) 的图像生成模型。

研究团队没有给这个生成模型增加任何专门用于视觉理解(如检测、分割)的复杂网络结构,也没有修改底层架构。他们的方法极其巧妙 ——将视觉感知任务的输出空间,全部参数化为 RGB 图像格式。具体来说,他们在原始的图像生成训练数据中,掺入了一小部分视觉任务数据,进行轻量级的指令微调。

为了教导模型听懂指令,并直接「画」出视觉任务的结果,Vision Banana 实行图像化输出解码。例如在语义分割中,提示词会规定「把滑板画成纯黄色 <255, 255, 0>」,模型就会直接生成一张带有颜色掩码的 RGB 图片,随后只需将对应颜色的像素提取出来,就能完美还原出分割结果。

在做 3D 深度估计时,他们则设计了一套严格可逆的数学映射机制(利用幂律变换),将物理世界中从 0 到无穷大的度量深度映射到 RGB 色彩立方体的边缘上。模型输出一张渐变的「伪色彩图」,解码后就能直接换算成精准的物理深度距离。

通过这种用画图来做题的方法,一个统一的 Vision Banana 模型在 2D 和 3D 视觉理解任务上,打败或逼平了一众目前顶尖的各类专业模型:

深度估计的精妙色彩映射

在所有可视化方案中,深度估计的 RGB 编码设计最为精巧,值得单独展开。

深度值的范围是 [0, ∞),而 RGB 值的范围是有界的 [0, 1]^3,如何在二者之间建立一个双射(bijection),是工程设计的核心挑战。

研究者采用了幂变换对深度值进行「弯曲」处理,将原始深度映射为 [0, 1) 区间内的归一化距离,再沿 RGB 立方体的棱边进行线性插值 —— 这条路径类似于三维希尔伯特曲线的第一次迭代,从黑色到白色遍历立方体的棱边。由于幂变换和线性插值均可严格求逆,整个映射构成了度量深度到 RGB 空间的完美双射,模型推理生成的彩色图像可以无损地解码回精确的度量深度值。

此外,研究团队还特意对近场物体赋予更高的颜色分辨率 —— 因为对机器人操作、深度传感等应用而言,近距离物体的精确度量往往比远景更为关键。

表面法向量估计

相比深度,表面法向量的可视化方案则要自然得多。表面法向量由 (x, y, z) 三个分量构成,值域为 [-1.0, 1.0],与 RGB 颜色通道天然对齐。研究者采用右手坐标系(+x 向右、+y 向上、+z 朝外),将三个方向分量直接映射为 R、G、B 通道:朝左的表面呈现粉红色调,朝上的呈浅绿色,面向摄像机的呈浅蓝 / 紫色。

这种内在的对齐使得法向量估计几乎无需额外设计,直接沿用生成模型的原生能力即可。

实验结果:全面超越零样本专家模型

2D 理解:分割任务

语义分割方面,Vision Banana 在 Cityscapes 数据集(19 类城市场景)上以 mIoU 0.699 超越 SAM 3 的 0.652,领跑所有零样本迁移方法,进一步缩小了与闭集专有模型(如 SegMan-L)之间的差距。

实例分割方面,Vision Banana 采用「逐类推理」策略应对实例数量未知的挑战:每次推理仅针对一个类别,让模型自动为不同实例动态分配颜色,推理后通过颜色聚类解码出各个实例掩模。在 SA-Co/Gold 数据集上,Vision Banana 的 pmF1 为 0.540,与 DINO-X(0.552)基本持平,远超 Gemini 2.5(0.461)和 OWLv2(0.420)等方法。

指称表达式分割(Referring Expression Segmentation)是最能体现语言-视觉深度融合的任务 —— 模型需要理解自由形式的自然语言查询,并据此精确分割对应目标。

Vision Banana 在此任务上表现尤为出色:在 RefCOCOg 数据集(UMD 验证集)上取得 cIoU 0.738,在 ReasonSeg 验证集上取得 gIoU 0.793,均超越 SAM 3 Agent(0.734 / 0.770)。更令人惊喜的是,当与 Gemini 2.5 Pro 结合使用时,Vision Banana 在 ReasonSeg 上甚至能超越部分在训练集上经过完整训练的非零样本方法。研究者观察到,Vision Banana 继承自生成式预训练的多模态智能,使其能更有效地推理「分割什么」,这正是判别式模型难以企及的优势。

3D 理解:深度与法向量估计

单目度量深度估计是 3D 理解中公认的难题:2D 投影会不可逆地丢失三维几何信息,而在没有多视图视差线索的单目设定下难度更甚。现有 SOTA 方法(如 Depth Anything V3、UniK3D、MoGe-2)通常需要在训练或推理阶段引入相机内参(camera intrinsics)来消解固有歧义,并配以专门设计的架构和损失函数。

Vision Banana 的策略截然不同:完全不使用相机参数(训练和推理阶段均如此),纯粹依靠基础模型在大规模图像生成预训练中习得的关于物体尺寸、距离关系的几何先验来推断绝对尺度。更值得注意的是,所有训练数据均来自合成渲染引擎,没有使用任何真实世界的深度数据,且所有评估基准的真实训练数据均被排除在外。

在六大公开基准上,Vision Banana 的平均 δ_1 精度达到 0.882,在与 Depth Anything V3 直接可比的四个数据集(NYU、ETH3D、DIODE-indoor、KITTI)上平均 δ_1 为 0.929,超过 Depth Anything V3 的 0.918。与 UniK3D 相比领先近 6 个百分点,绝对相对误差(AbsRel)比 MoGe-2 低约 20%。

研究者还做了一个颇具说服力的 vibe test:论文作者本人在鹿苑寺附近用普通智能手机拍摄了一张照片,Vision Banana 估计出照片中标注点的深度为 13.71 米,实际用谷歌地图测量的距离为 12.87 米,绝对相对误差仅约 0.065。

表面法向量估计方面,Vision Banana 在四个公开基准的室内场景平均值上取得最低的均值和中值角度误差,在户外场景上与 Lotus-2 相当。定性对比显示,Vision Banana 生成的法向量图视觉保真度和细节粒度均明显优于 Lotus-2,即使在定量指标略逊的室外数据集(Virtual KITTI 2)上,其视觉质量依然更胜一筹。

生成能力验证

轻量级指令微调是否会损伤 Nano Banana Pro 原有的图像生成能力?

研究团队在 GenAI-Bench(文字生成图像)和 ImgEdit(图像编辑)两个基准上进行了人类偏好评估,Vision Banana 对 Nano Banana Pro 的胜率分别为 53.5% 和 47.8%(见图 1)。

这一结果清晰地表明,经过指令微调的 Vision Banana 与基础模型的生成能力基本持平,「通晓理解,不忘生成」。

范式转变正在发生

这项研究的意义不仅在于一组亮眼的基准数字,更在于它提出并系统性验证了两个深刻的论断。

其一,图像生成器是通用视觉学习器。与 LLM 领域的生成式预训练类比,图像生成训练使模型习得的视觉先验不仅服务于生成任务,更已内化为通用的视觉理解能力。这些生成先验甚至能超越为特定任务精心设计的专有架构和训练范式。

其二,图像生成是视觉任务的通用接口。正如文本生成统一了语言理解、推理、数学、代码、智能体等各类任务,将视觉任务输出参数化为 RGB 图像,使得图像生成也能成为视觉任务的统一界面。单一提示词驱动、单一模型权重共享 —— 这种优雅的统一性与 LLM 在语言领域的成功如出一辙。

此外,研究者还指出,生成式建模天然能处理视觉任务中的固有歧义。判别式专家模型通常需要特殊的架构设计(如 SAM 系列对同一输入返回多个分割掩模并只对其中一个计算损失)来应对一对多的输出分布,而生成模型学习完整的数据分布,歧义由设计本身优雅化解。

当然,研究者也坦承了若干局限与未来方向。当前评估专注于单目图像输入,多视图和视频输入的扩展是自然的下一步,而视频生成器是否能习得更丰富的时序感知视觉表征,是一个极具吸引力的研究方向。另一值得期待的方向是探索基础视觉模型与 LLM 的协同融合,以增强跨模态推理。此外,与轻量级专家模型相比,基于图像生成器的推理开销仍然显著偏高,加速与成本优化将是走向广泛部署的必由之路。

结语

Vision Banana 的出现,让「能生成即能理解」这一长期猜想从直觉变为了有据可查的事实。

图像生成,可能正在成为计算机视觉的「GPT 时刻」,就像生成式预训练重塑了自然语言处理领域的格局一样,以 Nano Banana Pro 为代表的大规模图像生成模型,或许正是构建真正意义上的「基础视觉模型」所缺失的那块拼图。

DeepMind 在论文结尾写道:「这些生成先验超越了视觉专家模型长期依赖的专有架构与训练范式。我们正在目睹计算机视觉的范式转变,生成式视觉预训练将在构建同时支持生成与理解的基础视觉模型中扮演核心角色,并为基于视觉的 AGI铺平道路。」

这一判断,值得整个计算机视觉社区认真对待。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:Panda、泽南 ,36氪经授权发布。