何恺明、谢赛宁署名,Google DeepMind推出Vision Banana:图像生成器即通才视觉学习者
长期以来,计算机视觉领域主流的表征学习方法,如监督判别、对比学习、自举、自编码等,几乎都与生成式建模无关。早期的生成式视觉预训练虽展现出随规模提升而增强的趋势,但整体效果始终落后于非生成式方法。
与此同时,图像和视频生成模型在过去一年展现出惊人的合成能力,也偶尔显露出零样本视觉理解的迹象。一个长期存在的猜想因此再次受到关注:能够“创造”视觉内容的模型,是否也具备“理解”视觉内容的能力?此前的相关尝试,要么难以让生成模型按指令输出可量化评估的结果,要么需要加入专门模块并进行全量微调,从而牺牲通用性。
为回答这一问题,Google DeepMind 团队推出了Vision Banana。这是一款以 Nano Banana Pro(NBP)为底座,并通过轻量指令微调打造的通用视觉模型。值得注意的是,何恺明、谢赛宁等学者也参与署名,这项工作在一定程度上代表了研究团队对通用视觉基础模型方向的最新判断。
论文链接:https://arxiv.org/pdf/2604.20329
核心结论很直接:只需在 NBP 原始训练数据中以极低比例混入视觉任务数据,并将所有视觉任务的输出统一重新参数化为 RGB 图像,模型就能在 2D 与 3D 视觉理解的多项 benchmark 上达到或超越 SAM 3、Depth Anything 3、Lotus-2 等专用模型,同时保留原有的图像生成能力。
Vision Banana:生成即理解
Vision Banana 的方法灵感来自大语言模型(LLM)的训练范式。在自然语言处理中,生成式预训练产出“基础模型”,而指令微调引导模型按照特定指令和格式生成文本。研究团队将这一思路运用到视觉领域:把图像生成模型作为“基础模型”,通过指令微调让它按照 prompt 要求生成指定格式的视觉输出。
图|研究团队通过对 Nano Banana Pro 进行指令微调,揭示了图像生成器潜在的视觉理解能力。经过指令微调的模型 Vision Banana 能够以精确的格式生成可视化结果,从而支持在主流基准测试上进行评估。
1.将视觉任务重构为图像生成
这是整个方法的核心创新。无论是分割掩码、深度图,还是表面法线,视觉任务的输出都被统一参数化为 RGB 图像。具体做法是设计一套“可解码的可视化方案”,让生成结果既能被人眼识别,也能通过明确规则逆向还原为物理量或语义标签。
以语义分割为例,研究团队给模型的 prompt 是“用纯黄色 <255, 255, 0> 分割滑板类别”。评估时,只需聚类所有接近 <255, 255, 0> 的像素,即可得到滑板的掩码。
这种策略带来三个关键优势:统一模型即可支持多种任务,只需调整 prompt,无需修改权重;新增训练数据需求极低,指令微调主要是教模型如何将视觉结果格式化为 RGB 输出;同时保留原始图像生成能力,因为输出本质上仍是 RGB 图像。
2.轻量级指令微调策略
研究团队将视觉任务数据以极低比例混入 Nano Banana Pro 的原始训练数据中进行联合训练。低比例混合能够确保视觉任务对齐不会破坏模型已有的生成先验。
2D 任务套件包括指代表达分割、语义分割和实例分割;3D 任务聚焦单目度量深度估计与表面法线估计。训练数据方面,2D 任务采用内部模型对网络图像生成的标注,3D 任务采用渲染引擎生成的合成数据。
关键在于,所有评测基准对应的训练数据均未被纳入指令微调混合数据中,因此结果能够更真实地反映模型的通用泛化能力。
3.深度值到 RGB 的可逆双射
深度估计是论文中技术细节最集中的部分。深度值范围是 [0, ∞),RGB 值域是 [0, 1]^3,如何在两者之间建立可逆映射,是核心问题。
研究团队首先对深度值进行 power transform,将近距离深度的分辨率拉高,同时压缩远距离深度的分辨率,这也符合机器人抓取等任务中近处物体更重要的直觉。随后,再将归一化后的距离值沿 RGB 立方体边缘进行分段线性插值,方式类似 3D Hilbert 曲线的首次迭代。
由于这两个变换都严格可逆,最终形成了从 [0, ∞] 到 [0, 1]^3 的双射映射。训练阶段,将 ground-truth 深度映射为 RGB 作为监督目标;推理阶段,再进行反向解码,即可恢复度量深度。
为提升鲁棒性,训练数据还加入了 Plasma、Inferno、Viridis、灰度等多种替代色图增强。值得注意的是,该深度模型完全基于合成数据训练,没有使用任何真实世界深度数据,同时训练与推理过程均不依赖相机内外参。
效果怎么样?
研究团队在 2D 分割、3D 深度估计、表面法线估计三类任务上,对比 Vision Banana 和各领域专家模型进行了全面评测。结果如下:
图|经过指令微调后,Vision Banana 在视觉生成与理解任务中的性能表现。
2D 分割:在 Cityscapes 语义分割任务中,Vision Banana 的 mIoU 达到 0.699,较 SAM 3 的 0.652 提升 4.7 个点,成为表现最强的开放词汇模型。在 RefCOCOg 指代分割任务中,cIoU 达 0.738,超过 SAM 3 Agent 的 0.734。在 ReasonSeg 推理分割任务中,配合 Google 的 Gemini 2.5 Pro 后,gIoU 达 0.793,高于 SAM 3 Agent 的 0.770,并超过了在训练集上训练的 X-SAM 和 LISA。实例分割是唯一稍弱的项目,在 SA-Co/Gold 上 pmF1 为 0.540,略低于 DINO-X 的 0.552。
表|Vision Banana 与各分割数据集上的 SOTA 方法的对比结果。
3D 深度估计:在 6 个主流基准上的平均 δ1 精度达到 0.882,较 UniK3D 提升近 6 个点,AbsRel 较 MoGe-2 下降约 20%。在 Depth Anything 3 评测使用的四个数据集(NYU、ETH3D、DIODE、KITTI)上,Vision Banana 的平均 δ1 为 0.929,优于 Depth Anything 3 的 0.918。
表|零样本迁移设置下的单目度量深度估计结果。Vision Banana 在训练和推理阶段均不使用相机内参的情况下,在公开数据集上取得了更优的结果。
表面法线估计:在三个室内数据集上,Vision Banana 取得最低平均角度误差,mean 为 15.549,median 为 9.300,优于 Lotus-2 的 mean 16.558。在户外 VKitti 场景中,其表现与 Lotus-2 持平。值得注意的是,Lotus-2 曾在 Virtual KITTI 2 上进行训练,而 Vision Banana 严格保持 zero-shot 设置。
表|表面法线估计结果。Vision Banana 在室内数据集上平均取得了最低的均值和中值角度误差,并在室外场景上与此前的 SOTA 方法持平。
生成能力保留:在 GenAI-Bench 文生图对比中,Vision Banana 相对基础模型 Nano Banana Pro 的胜率为 53.5%;在 ImgEdit 图像编辑任务中,胜率为 47.8%。这表明经过轻量级 instruction-tuning 后,模型的生成能力依然保持稳定。
还需要做什么?
研究团队表示,Vision Banana 并非完美,还需要在未来工作中持续改进。
例如,Vision Banana 的实例分割性能仍落后于 SAM 3,在 SA-Co/Gold 数据集上仍有差距。论文指出,部分原因在于 Vision Banana 并未将 SA-Co 纳入训练数据,而 SAM 3 则基于该数据进行训练。同时,这项任务本身也对按类推理策略提出了挑战。
计算开销也是当前的限制之一。研究团队指出,现阶段使用 NBP 规模的图像生成器进行视觉理解,其推理成本高于轻量级专用模型。如果要大规模部署生成式视觉框架,仍需进一步提升速度并降低成本。
目前的评估范围仅限于单目图像输入,未来可拓展至多视角输入和视频输入。研究视频生成器是否能够学习到更丰富的时间感知表征,也被视为值得探索的方向。扩大 instruction-tuning 任务的多样性,或许能像 LLM 一样释放更强的跨任务泛化能力。此外,将基础视觉模型与大语言模型协同集成,用于增强跨模态推理,也是下一阶段的重要方向。
从更宏观的角度看,这项工作试图将 LLM 时代“预训练产出通用基座、instruction-tuning 把基座对齐到具体任务”的范式引入视觉领域。如果图像生成能够成为视觉的通用接口,那么“生成”与“理解”这两条原本相对独立的研究路线,未来或将汇聚到同一个基础视觉模型之中。
本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。