[Paper] TaxonRL:强化学习与中间奖励用于可解释的细粒度视觉推理

发布: (2026年3月5日 GMT+8 02:45)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.04380v1

Overview

该论文 TaxonRL 解决了视觉‑语言模型长期存在的一个弱点:可靠地区分属于同一属或科的外观相似的物种。通过将细粒度分类框定为层次推理任务,并使用强化学习(RL)和中间奖励来训练模型,作者实现了最先进的准确率,同时生成可供人类阅读的决策轨迹。

关键贡献

  • 层次强化学习框架 – 引入 Group Relative Policy Optimization (GRPO),在多个分类层级(物种、属、科)对模型进行奖励。
  • 可解释的推理轨迹 – 模型显式输出一系列分类预测,使其最终决策可审计。
  • 在 Birds‑to‑Words 上的性能提升 – 达到 91.7 % 的平均准确率,超越 77.3 % 的人类基准。
  • 跨领域泛化 – 展示了在灵长类和海洋物种验证任务中的可迁移性,仅需少量微调。
  • 开源实现与基准套件 – 提供代码、预训练检查点以及用于视觉推理研究的诊断工具包。

方法论

  1. Problem formulation – 将分类重新定义为三步决策过程:首先预测 family,然后在该 family 内预测 genus,最后在该 genus 内预测 species

  2. Policy network – 在标准的视觉‑语言骨干网络(例如 CLIP ViT + BERT)上添加轻量级的策略头,输出当前分类组的概率分布。

  3. Group Relative Policy Optimization (GRPO) – 一种基于近端策略优化(PPO)的强化学习算法,但经过修改,使得每当模型正确识别更高层级的组时就发放 intermediate rewards,即使最终的 species 预测错误。这有助于使策略趋向层次一致性。

  4. Reward design

    • Family reward: 正确的 family +1,其他为 0。
    • Genus reward: 正确的 genus and 正确的 family +1(以强制嵌套)。
    • Species reward: 正确的 species and 正确的 genus/family +1。
    • 小的熵奖励鼓励在训练早期进行探索。
  5. Training loop – 模型与基于 Birds‑to‑Words 数据集构建的模拟环境交互,为每张图像生成一系列 taxonomic decisions 轨迹并获得相应奖励。梯度通过 GRPO surrogate loss 计算,并在整个视觉‑语言堆栈中反向传播。

  6. Inference – 在测试时模型采用贪婪策略,输出三步的 taxonomic path,可视化为推理轨迹(例如 “Family = Accipitridae → Genus = Buteo → Species = Buteo jamaicensis”)。

结果与发现

数据集平均准确率人类基准先前SOTA
Birds‑to‑Words91.7 %77.3 %84.2 %
Primate verification (cross‑domain)88.1 %80.5 %
Marine species verification86.4 %78.9 %
  • 可解释性:96 % 的生成推理轨迹被领域专家评为“逻辑一致”,而黑箱基线的比例不足 30 %。
  • 消融实验:去除中间奖励会导致准确率下降约 7 个百分点,验证了层次激励的重要性。
  • 样本效率:TaxonRL 只需标准交叉熵基线训练周期的 30 % 即可达到最终性能的 90 %。

实际意义

  • 生物多样性监测 – 可部署的模型现在不仅能提供物种标签,还能给出可验证的分类学依据,这对公民科学平台和监管审计非常有用。
  • 野生动物保护工具 – 保护工作者在做高风险决策(例如识别濒危亚种)时可以信赖模型输出,因为推理过程可以被检查。
  • 电子商务与农业 – 细粒度的产品分类(例如区分番茄品种)可以受益于层次化推理,从而降低误标成本。
  • 迁移学习 – 层次化强化学习范式可以重新用于任何具有自然分类体系的领域(例如医学影像:器官 → 子器官 → 病理)。
  • 调试与模型治理 – 明确的中间预测充当自然的“检查点”,可用于自动化监控流水线,提前在科/属层面发现漂移或偏差,避免代价高昂的误分类。

限制与未来工作

  • 分类学深度 – 当前的三级层次结构对鸟类效果良好,但可能需要针对更深或不规则的分类(例如具有亚种的植物)进行调整。
  • 稀有类别的奖励稀疏 – 训练样本少的物种获得的中间奖励信号有限,这仍可能导致性能不足。
  • 可扩展性 – 虽然 GRPO 对约 1 万类高效,但要扩展到数十万类(例如全球昆虫目录),需要层次批处理或课程学习。
  • 作者提出的未来方向 包括:
    1. 将框架扩展到多模态查询(音频 + 图像)。
    2. 融合外部知识图谱以丰富中间奖励。
    3. 探索从一开始就遵循分类结构的自监督预训练。

作者

  • Maximilian von Klinski
  • Maximilian Schall

论文信息

  • arXiv ID: 2603.04380v1
  • 分类: cs.CV, cs.CL
  • 出版日期: 2026年3月4日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……