[Paper] TaxonRL:强化学习与中间奖励用于可解释的细粒度视觉推理
Source: arXiv - 2603.04380v1
Overview
该论文 TaxonRL 解决了视觉‑语言模型长期存在的一个弱点:可靠地区分属于同一属或科的外观相似的物种。通过将细粒度分类框定为层次推理任务,并使用强化学习(RL)和中间奖励来训练模型,作者实现了最先进的准确率,同时生成可供人类阅读的决策轨迹。
关键贡献
- 层次强化学习框架 – 引入 Group Relative Policy Optimization (GRPO),在多个分类层级(物种、属、科)对模型进行奖励。
- 可解释的推理轨迹 – 模型显式输出一系列分类预测,使其最终决策可审计。
- 在 Birds‑to‑Words 上的性能提升 – 达到 91.7 % 的平均准确率,超越 77.3 % 的人类基准。
- 跨领域泛化 – 展示了在灵长类和海洋物种验证任务中的可迁移性,仅需少量微调。
- 开源实现与基准套件 – 提供代码、预训练检查点以及用于视觉推理研究的诊断工具包。
方法论
-
Problem formulation – 将分类重新定义为三步决策过程:首先预测 family,然后在该 family 内预测 genus,最后在该 genus 内预测 species。
-
Policy network – 在标准的视觉‑语言骨干网络(例如 CLIP ViT + BERT)上添加轻量级的策略头,输出当前分类组的概率分布。
-
Group Relative Policy Optimization (GRPO) – 一种基于近端策略优化(PPO)的强化学习算法,但经过修改,使得每当模型正确识别更高层级的组时就发放 intermediate rewards,即使最终的 species 预测错误。这有助于使策略趋向层次一致性。
-
Reward design –
- Family reward: 正确的 family +1,其他为 0。
- Genus reward: 正确的 genus and 正确的 family +1(以强制嵌套)。
- Species reward: 正确的 species and 正确的 genus/family +1。
- 小的熵奖励鼓励在训练早期进行探索。
-
Training loop – 模型与基于 Birds‑to‑Words 数据集构建的模拟环境交互,为每张图像生成一系列 taxonomic decisions 轨迹并获得相应奖励。梯度通过 GRPO surrogate loss 计算,并在整个视觉‑语言堆栈中反向传播。
-
Inference – 在测试时模型采用贪婪策略,输出三步的 taxonomic path,可视化为推理轨迹(例如 “Family = Accipitridae → Genus = Buteo → Species = Buteo jamaicensis”)。
结果与发现
| 数据集 | 平均准确率 | 人类基准 | 先前SOTA |
|---|---|---|---|
| Birds‑to‑Words | 91.7 % | 77.3 % | 84.2 % |
| Primate verification (cross‑domain) | 88.1 % | – | 80.5 % |
| Marine species verification | 86.4 % | – | 78.9 % |
- 可解释性:96 % 的生成推理轨迹被领域专家评为“逻辑一致”,而黑箱基线的比例不足 30 %。
- 消融实验:去除中间奖励会导致准确率下降约 7 个百分点,验证了层次激励的重要性。
- 样本效率:TaxonRL 只需标准交叉熵基线训练周期的 30 % 即可达到最终性能的 90 %。
实际意义
- 生物多样性监测 – 可部署的模型现在不仅能提供物种标签,还能给出可验证的分类学依据,这对公民科学平台和监管审计非常有用。
- 野生动物保护工具 – 保护工作者在做高风险决策(例如识别濒危亚种)时可以信赖模型输出,因为推理过程可以被检查。
- 电子商务与农业 – 细粒度的产品分类(例如区分番茄品种)可以受益于层次化推理,从而降低误标成本。
- 迁移学习 – 层次化强化学习范式可以重新用于任何具有自然分类体系的领域(例如医学影像:器官 → 子器官 → 病理)。
- 调试与模型治理 – 明确的中间预测充当自然的“检查点”,可用于自动化监控流水线,提前在科/属层面发现漂移或偏差,避免代价高昂的误分类。
限制与未来工作
- 分类学深度 – 当前的三级层次结构对鸟类效果良好,但可能需要针对更深或不规则的分类(例如具有亚种的植物)进行调整。
- 稀有类别的奖励稀疏 – 训练样本少的物种获得的中间奖励信号有限,这仍可能导致性能不足。
- 可扩展性 – 虽然 GRPO 对约 1 万类高效,但要扩展到数十万类(例如全球昆虫目录),需要层次批处理或课程学习。
- 作者提出的未来方向 包括:
- 将框架扩展到多模态查询(音频 + 图像)。
- 融合外部知识图谱以丰富中间奖励。
- 探索从一开始就遵循分类结构的自监督预训练。
作者
- Maximilian von Klinski
- Maximilian Schall
论文信息
- arXiv ID: 2603.04380v1
- 分类: cs.CV, cs.CL
- 出版日期: 2026年3月4日
- PDF: 下载 PDF