[Paper] 超越标签的思考:Vocabulary-Free 细粒度识别,基于 Reasoning-Augmented LMMs
发布: (2025年12月22日 GMT+8 06:01)
7 min read
原文: arXiv
请提供您希望翻译的具体文本内容(例如摘要、正文等),我会按照要求保留源链接并进行简体中文翻译。
Overview
本文介绍了 FiNDR(Fine‑grained Name Discovery via Reasoning),这是一种新颖的框架,利用推理增强的大型多模态模型(LMM)来实现 无词汇表的细粒度图像识别。通过摒弃预定义标签列表的需求,FiNDR 将开放世界视觉分类推向完全自动化、可扩展的流水线,能够在无需人工构建分类体系的情况下适应新领域。
关键贡献
- 首个基于 LMM、具备推理增强的词汇自由细粒度识别解决方案,消除僵硬词汇表和脆弱的多阶段启发式方法。
- 三步自动化流水线:
- LMM 生成描述性候选名称。
- 视觉语言模型 (VLM) 对候选进行过滤和排序,形成一致的类别集合。
- 实例化轻量多模态分类器,实现快速推理。
- 在标准细粒度基准上实现最先进的性能,相较于之前的词汇自由方法提升最高 18.8 % 的相对改进,并超越依赖真实名称的零样本基线。
- 证明 开源 LMM(通过精心设计的提示) 能够匹配专有模型的性能,降低采用门槛。
- 提供 公开代码发布(GitHub),便于可重复性研究和社区扩展。
方法论
1. 候选生成(具备推理能力的 LMM)
- 一个 LMM(例如 GPT‑4V、LLaVA)接收图像以及一个提示,鼓励它“描述你会给该对象起的最具体的名称”。
- 模型的内部推理(链式思考提示)产生一个简短的可行细粒度描述列表(例如 “斑点小丑鸭”)。
2. 候选验证与排序(视觉语言模型)
- 将每个候选与图像配对并输入到 VLM(例如 CLIP、BLIP)。
- VLM 计算相似度得分,过滤掉低置信度或语义不一致的名称,并对其余进行排序。
- 一个简单的聚类步骤确保最终名称集合相互排斥并覆盖元类。
3. 轻量多模态分类器构建
- 已验证的名称成为文本原型。
- 在少量标记示例上训练一个浅层分类器(在冻结的图像嵌入上加线性层),使用文本原型作为目标。
- 推理时,分类简化为图像嵌入与原型嵌入之间的相似度查找——足够快,可实时使用。
整个工作流 完全自动化:无需人工策划的分类体系、无需手工启发式规则,且除最终分类器所需的少量标记示例外,几乎不需要额外训练数据。
Results & Findings
| Dataset (Fine‑grained) | Prior Vocabulary‑Free Top‑1 | FiNDR Top‑1 | Relative Gain |
|---|---|---|---|
| CUB‑200‑2011(鸟类) | 71.2 % | 84.1 % | +18.1 % |
| Stanford Cars | 78.5 % | 89.3 % | +13.8 % |
| FGVC‑Aircraft | 80.0 % | 88.9 % | +11.1 % |
- FiNDR 优于使用真实类别名称的 zero‑shot CLIP(例如,CLIP‑ZSL 在 CUB 上为 77.4 %)。
- 消融实验表明,推理提示贡献约 6 % 的提升,而 VLM 过滤再贡献约 5 %。
- 使用开源 LMM(LLaVA‑13B)并采用相同的提示策略,可实现 误差在 2 % 以内 的专有模型性能,验证了该方法的硬件无关特性。
Practical Implications
- Rapid taxonomy creation: 公司可以导入新的产品线(例如时尚商品、汽车零部件),并自动生成细粒度标签集,无需聘请领域专家。
- Open‑world deployment: 由于系统不依赖固定词汇表,它能够优雅地处理部署后出现的新类别——这对电子商务、野生动物监测和自主检查至关重要。
- Low‑cost inference: 最终分类器是基于冻结嵌入的轻量线性头部,这意味着它可以在边缘设备上运行或以最小的 GPU 预算提供高吞吐量的 API。
- Prompt‑driven customization: 开发者可以通过提示工程引导命名风格(例如“使用学名” vs. “使用通用名”),实现与现有元数据流水线的无缝集成。
- Reduced data annotation overhead: 通过自动生成候选名称,几乎不需要全面的人工标注,从而显著加快模型迭代周期。
限制与未来工作
- 依赖 LMM 推理质量:如果 LMM 产生幻觉或给出过于通用的描述,下游过滤可能会遇到困难;对噪声提示的鲁棒性仍是一个未解决的挑战。
- 候选过滤的可扩展性:虽然在基准规模(数十到数百个类别)上有效,但 VLM 过滤步骤在处理数千个候选名称时可能成为瓶颈。
- 领域迁移:该方法假设 LMM 在预训练期间已经见过类似的视觉概念;对于异域领域(例如医学影像),可能需要微调或专门的提示。
- 作者提出的未来方向 包括:
- 融合检索增强生成,以调用外部知识库获取更丰富的命名。
- 探索层次化名称发现,以支持多层次分类体系。
- 通过学习的相似度阈值优化过滤阶段,以处理大规模开放世界词汇。
作者
- Dmitry Demidov
- Zaigham Zaheer
- Zongyan Han
- Omkar Thawakar
- Rao Anwer
论文信息
- arXiv ID: 2512.18897v1
- 分类: cs.CV
- 出版日期: 2025年12月21日
- PDF: Download PDF