首页文章详情

超越CLIP,北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像

量子位2026-02-11 15:59
大模型也能分清飞机型号了

当前多模态大模型在许多复杂多模态任务上表现出色,却在细粒度视觉识别任务上明显落后于其所依赖的视觉编码器(如CLIP)。

对此,北京大学彭宇新教授团队在细粒度多模态大模型领域进行了深入研究,最新研究相关论文已被ICLR 2026接收,并已开源

我们日常面对的真实世界具有细粒度的特性,体现在真实世界中的对象通常包含极其丰富的类别层次,具有海量的细粒度类别。以飞机为例,“飞机”作为粗粒度大类,可进一步细分为“波音707”、“波音717”、“波音727”等上百种细粒度子类。据统计,民用飞机数据库收录全球固定翼飞机种类超过500种,且这一数据仍在持续增长。实现对任意类别视觉对象的细粒度识别,在现实生产和生活中具有重要的研究和应用价值。

△ 图1.细粒度视觉识别大模型(Fine-R1)总览

细粒度视觉识别大模型旨在利用多模态大模型蕴含的丰富细粒度子类别知识以及生成式类别名称解码范式,突破传统识别方法针对封闭域中有限类别的局限,实现开放域中任意类别视觉对象的细粒度识别。

然而,多模态大模型的细粒度视觉识别能力依赖大量训练数据,但由于细粒度标注数据收集难度高、标注成本大,无法满足大模型训练所需的标注数据规模。此外,大模型在包含有限子类别的数据上训练后,难以泛化到训练集外的子类别,无法识别不限定范围的开放域细粒度子类别

针对上述问题,北京大学彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,通过思维链监督微调与三元组增强策略优化,提升了大模型运用训练集已有细粒度子类别知识推理未见子类别的能力,在每类仅需4张训练图像的情况下,对训练集内外子类别的识别准确率均超越了OpenAICLIP谷歌DeepMindSigLIP等判别式模型,展现了生成式多模态大模型在解决判别式任务上的巨大潜力

两阶段方案

△ 图2.细粒度视觉识别大模型(Fine-R1)框架图

如图2所示,Fine-R1构建过程包含2个主要步骤:

1. 思维链监督微调:模拟人类的思考过程,通过结构化思维链的监督微调,为多模态大模型快速构建推理能力。

2. 三元组增强策略优化:在强化微调过程中,选取正样本(同一子类别)和负样本(不同子类别),通过引入正样本的思考轨迹,提升大模型对类内差异的鲁棒性,通过最大化输入图像与负样本的预测分布差异,提升大模型对类间差异的辨识性。

具体如下:

阶段I:思维链监督微调。首先,基于Qwen2.5-VL-32B为少量细粒度视觉识别数据构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析以及最终预测四个步骤。然后,利用思维链数据对基础模型进行监督微调,促进模型利用训练集已有子类别知识,为输入图像生成候选子类别,再通过对比分析从中锁定最终的预测结果。

阶段II:三元组增强策略优化。在思维链监督微调后,针对细粒度视觉识别“类内差异大、类间差异小”的问题,进一步优化模型的推理路径,同时提升大模型对类内差异的鲁棒性与类间差异的辨识性。具体而言,为每张输入图像匹配一张来自同一子类别的正样本图像,以及一张外观上高度相似但属于不同子类别的负样本图像,构成三元组,实现类内增强与类间增强。

(1)类内增强:同时利用来自输入图像及其正样本的思考轨迹,从而捕获更广泛的类内变化,增强模型对类内差异的鲁棒性。具体地,利用旧模型生成两组思考轨迹:第一组包含个基于原始图像-问题对的响应,第二组包含个基于正样本图像-问题对的响应。所有奖励被聚合为一个统一的奖励池,用于后续计算:

当模型对输入图像与正样本图像产生不同预测结果时,奖励的差异会促使模型仅关注用于识别该子类别的判别性特征,并忽略其他无关特征。

(2)类间增强:促进模型对来自不同子类别的相似图像生成不同的响应,增强模型对类间差异的辨识性。为了量化模型区分子类别的能力,定义如下比例:

通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,增强模型的判别性:

结合类内与类间增强后的最终目标函数为:

其中,为KL散度的权重,和是对应熵项的权重,𝔻KL[πθ || πθneg] = giinter(θ) − log giinter(θ) − 1。is_included(a, oᵢ)用于检测模型输出的答案中是否包含真实类别名称。

实验结果

△ 表1.细粒度视觉识别大模型(Fine-R1)封闭式识别(多选题)结果

表1展示了在6个权威细粒度图像分类数据集上的封闭式识别(多选题)结果。在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率均超越了OpenAICLIP谷歌DeepMindSigLIP等判别式模型。

△ 表2.细粒度视觉识别大模型(Fine-R1)开放式识别(问答题)结果

表2展示了开放式识别(问答题)结果,即不预先给定候选类别,让大模型直接输出识别的类别名称。同样地,在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率超越了主流的通用多模态大模型与推理大模型

△ 图3.正负样本对可视化结果(左图:Qwen2.5-VL,右图:Fine-R1)

为探究Fine-R1取得提升的原因,基于多模态大模型在细粒度视觉识别上所需的3项能力,提出了3个假设:(1)提升了视觉表征的辨识度;(2)提升了子类别知识的储备度;(3)提升了子类别知识的运用能力。实验分析表明,Fine-R1主要通过提升“模型运用细粒度子类别知识的能力”提高了识别准确率,而非优化了视觉表征或增加了知识储备。

△ 图4.细粒度视觉识别大模型(Fine-R1)案例展示

图4的案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别。

论文标题:

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

论文链接:

https://arxiv.org/pdf/2602.07605

开源代码:

https://github.com/PKU-ICST-MIPL/FineR1_ICLR2026

模型地址:

https://huggingface.co/collections/StevenHH2000/fine-r1

实验室网址:

https://www.wict.pku.edu.cn/mipl

本文来自微信公众号“量子位”,作者:FineR1团队,36氪经授权发布。