[Paper] 超越标签的思考:Vocabulary-Free 细粒度识别,基于 Reasoning-Augmented LMMs

发布: (2025年12月22日 GMT+8 06:01)
7 min read
原文: arXiv

请提供您希望翻译的具体文本内容(例如摘要、正文等),我会按照要求保留源链接并进行简体中文翻译。

Overview

本文介绍了 FiNDR(Fine‑grained Name Discovery via Reasoning),这是一种新颖的框架,利用推理增强的大型多模态模型(LMM)来实现 无词汇表的细粒度图像识别。通过摒弃预定义标签列表的需求,FiNDR 将开放世界视觉分类推向完全自动化、可扩展的流水线,能够在无需人工构建分类体系的情况下适应新领域。

关键贡献

  • 首个基于 LMM、具备推理增强的词汇自由细粒度识别解决方案,消除僵硬词汇表和脆弱的多阶段启发式方法。
  • 三步自动化流水线
    1. LMM 生成描述性候选名称。
    2. 视觉语言模型 (VLM) 对候选进行过滤和排序,形成一致的类别集合。
    3. 实例化轻量多模态分类器,实现快速推理。
  • 在标准细粒度基准上实现最先进的性能,相较于之前的词汇自由方法提升最高 18.8 % 的相对改进,并超越依赖真实名称的零样本基线。
  • 证明 开源 LMM(通过精心设计的提示) 能够匹配专有模型的性能,降低采用门槛。
  • 提供 公开代码发布(GitHub),便于可重复性研究和社区扩展。

方法论

1. 候选生成(具备推理能力的 LMM)

  • 一个 LMM(例如 GPT‑4V、LLaVA)接收图像以及一个提示,鼓励它“描述你会给该对象起的最具体的名称”。
  • 模型的内部推理(链式思考提示)产生一个简短的可行细粒度描述列表(例如 “斑点小丑鸭”)。

2. 候选验证与排序(视觉语言模型)

  • 将每个候选与图像配对并输入到 VLM(例如 CLIP、BLIP)。
  • VLM 计算相似度得分,过滤掉低置信度或语义不一致的名称,并对其余进行排序。
  • 一个简单的聚类步骤确保最终名称集合相互排斥并覆盖元类。

3. 轻量多模态分类器构建

  • 已验证的名称成为文本原型。
  • 在少量标记示例上训练一个浅层分类器(在冻结的图像嵌入上加线性层),使用文本原型作为目标。
  • 推理时,分类简化为图像嵌入与原型嵌入之间的相似度查找——足够快,可实时使用。

整个工作流 完全自动化:无需人工策划的分类体系、无需手工启发式规则,且除最终分类器所需的少量标记示例外,几乎不需要额外训练数据。

Results & Findings

Dataset (Fine‑grained)Prior Vocabulary‑Free Top‑1FiNDR Top‑1Relative Gain
CUB‑200‑2011(鸟类)71.2 %84.1 %+18.1 %
Stanford Cars78.5 %89.3 %+13.8 %
FGVC‑Aircraft80.0 %88.9 %+11.1 %
  • FiNDR 优于使用真实类别名称的 zero‑shot CLIP(例如,CLIP‑ZSL 在 CUB 上为 77.4 %)。
  • 消融实验表明,推理提示贡献约 6 % 的提升,而 VLM 过滤再贡献约 5 %。
  • 使用开源 LMM(LLaVA‑13B)并采用相同的提示策略,可实现 误差在 2 % 以内 的专有模型性能,验证了该方法的硬件无关特性。

Practical Implications

  • Rapid taxonomy creation: 公司可以导入新的产品线(例如时尚商品、汽车零部件),并自动生成细粒度标签集,无需聘请领域专家。
  • Open‑world deployment: 由于系统不依赖固定词汇表,它能够优雅地处理部署后出现的新类别——这对电子商务、野生动物监测和自主检查至关重要。
  • Low‑cost inference: 最终分类器是基于冻结嵌入的轻量线性头部,这意味着它可以在边缘设备上运行或以最小的 GPU 预算提供高吞吐量的 API。
  • Prompt‑driven customization: 开发者可以通过提示工程引导命名风格(例如“使用学名” vs. “使用通用名”),实现与现有元数据流水线的无缝集成。
  • Reduced data annotation overhead: 通过自动生成候选名称,几乎不需要全面的人工标注,从而显著加快模型迭代周期。

限制与未来工作

  • 依赖 LMM 推理质量:如果 LMM 产生幻觉或给出过于通用的描述,下游过滤可能会遇到困难;对噪声提示的鲁棒性仍是一个未解决的挑战。
  • 候选过滤的可扩展性:虽然在基准规模(数十到数百个类别)上有效,但 VLM 过滤步骤在处理数千个候选名称时可能成为瓶颈。
  • 领域迁移:该方法假设 LMM 在预训练期间已经见过类似的视觉概念;对于异域领域(例如医学影像),可能需要微调或专门的提示。
  • 作者提出的未来方向 包括:
    1. 融合检索增强生成,以调用外部知识库获取更丰富的命名。
    2. 探索层次化名称发现,以支持多层次分类体系。
    3. 通过学习的相似度阈值优化过滤阶段,以处理大规模开放世界词汇。

作者

  • Dmitry Demidov
  • Zaigham Zaheer
  • Zongyan Han
  • Omkar Thawakar
  • Rao Anwer

论文信息

  • arXiv ID: 2512.18897v1
  • 分类: cs.CV
  • 出版日期: 2025年12月21日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »