[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

发布: 1天前 (2026年3月5日 GMT+8 02:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.04380v1

Overview

该论文 TaxonRL 解决了视觉‑语言模型长期存在的一个弱点：可靠地区分属于同一属或科的外观相似的物种。通过将细粒度分类框定为层次推理任务，并使用强化学习（RL）和中间奖励来训练模型，作者实现了最先进的准确率，同时生成可供人类阅读的决策轨迹。

层次强化学习框架 – 引入 Group Relative Policy Optimization (GRPO)，在多个分类层级（物种、属、科）对模型进行奖励。
可解释的推理轨迹 – 模型显式输出一系列分类预测，使其最终决策可审计。
在 Birds‑to‑Words 上的性能提升 – 达到 91.7 % 的平均准确率，超越 77.3 % 的人类基准。
跨领域泛化 – 展示了在灵长类和海洋物种验证任务中的可迁移性，仅需少量微调。
开源实现与基准套件 – 提供代码、预训练检查点以及用于视觉推理研究的诊断工具包。

Problem formulation – 将分类重新定义为三步决策过程：首先预测 family，然后在该 family 内预测 genus，最后在该 genus 内预测 species。
Policy network – 在标准的视觉‑语言骨干网络（例如 CLIP ViT + BERT）上添加轻量级的策略头，输出当前分类组的概率分布。
Group Relative Policy Optimization (GRPO) – 一种基于近端策略优化（PPO）的强化学习算法，但经过修改，使得每当模型正确识别更高层级的组时就发放 intermediate rewards，即使最终的 species 预测错误。这有助于使策略趋向层次一致性。
Reward design –
- Family reward: 正确的 family +1，其他为 0。
- Genus reward: 正确的 genus and 正确的 family +1（以强制嵌套）。
- Species reward: 正确的 species and 正确的 genus/family +1。
- 小的熵奖励鼓励在训练早期进行探索。
Training loop – 模型与基于 Birds‑to‑Words 数据集构建的模拟环境交互，为每张图像生成一系列 taxonomic decisions 轨迹并获得相应奖励。梯度通过 GRPO surrogate loss 计算，并在整个视觉‑语言堆栈中反向传播。
Inference – 在测试时模型采用贪婪策略，输出三步的 taxonomic path，可视化为推理轨迹（例如 “Family = Accipitridae → Genus = Buteo → Species = Buteo jamaicensis”）。

数据集	平均准确率	人类基准	先前SOTA
Birds‑to‑Words	91.7 %	77.3 %	84.2 %
Primate verification (cross‑domain)	88.1 %	–	80.5 %
Marine species verification	86.4 %	–	78.9 %

分类学深度 – 当前的三级层次结构对鸟类效果良好，但可能需要针对更深或不规则的分类（例如具有亚种的植物）进行调整。
稀有类别的奖励稀疏 – 训练样本少的物种获得的中间奖励信号有限，这仍可能导致性能不足。
可扩展性 – 虽然 GRPO 对约 1 万类高效，但要扩展到数十万类（例如全球昆虫目录），需要层次批处理或课程学习。
作者提出的未来方向 包括：
1. 将框架扩展到多模态查询（音频 + 图像）。
2. 融合外部知识图谱以丰富中间奖励。
3. 探索从一开始就遵循分类结构的自监督预训练。