[Paper] ARM-Thinker:通过代理式工具使用和视觉推理强化多模态生成式奖励模型

发布: (2025年12月5日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.05111v1

概览

本文提出了 ARM‑Thinker,一种全新的多模态奖励模型,能够 主动 使用外部工具(如图像裁剪工具或文档检索 API)来验证自己的判断。通过将奖励打分从静态的“黑箱”操作转变为交互式、基于证据的过程,作者显著提升了视觉定位能力,降低了幻觉现象,并在复杂的视觉‑语言任务上取得了更好的性能。

主要贡献

  • Agentic 奖励建模 – 首个能够在评估过程中自主决定 何时使用哪种 外部工具的奖励模型。
  • 工具集成训练流水线 – 多阶段强化学习,同时优化工具选择策略和奖励准确性。
  • ARMBench‑VL 套件 – 新的基准覆盖细粒度视觉定位、多页文档推理以及指令跟随验证。
  • 显著的性能提升 – 在标准奖励模型基准上平均提升 +16.2 %,在工具使用任务上提升 +9.6 %;在多模态数学和逻辑推理数据集上达到最新水平。
  • 可解释性提升 – 模型生成显式的工具调用日志,为每个奖励分数提供可追溯的“原因”。

方法论

  1. Agentic 架构 – ARM‑Thinker 由视觉‑语言编码器和一个 工具控制器 组成。给定输入(例如图像 + 问题),控制器预测是否需要工具以及调用哪种工具。
  2. 工具集合 – 作者集成了轻量级实用工具,例如:
    • 图像裁剪 / 缩放 用于检查细小区域。
    • 文档页检索 用于多页 PDF 或扫描书籍。
    • 文本验证 API(如拼写检查、事实核查)。
  3. 强化学习循环 – 训练分为三个阶段:
    • 监督预训练:在人工标注的奖励分数上进行。
    • 工具策略微调:模型学习调用能够最大化下游奖励(如正确答案验证)的工具。
    • 联合 RL:同时更新奖励打分头和工具选择策略,使用惩罚不必要工具调用、奖励基于证据的正确判断的奖励信号。
  4. 评估协议 – 对每个基准项,ARM‑Thinker 输出奖励分数 以及 工具调用轨迹,然后与真实证据对比,计算准确率和可解释性指标。

结果与发现

基准基线(静态 RM)ARM‑ThinkerΔ 提升
细粒度视觉定位(图像‑工具)68.4 %84.6 %+16.2 %
多页文档推理(检索‑工具)71.1 %80.7 %+9.6 %
指令跟随验证(文本‑工具)73.5 %79.2 %+5.7 %
多模态数学与逻辑(MM‑Math)61.3 %70.8 %+9.5 %
  • 工具使用具选择性:平均仅在 27 % 的输入上调用工具,表明模型学会仅在必要时使用工具。
  • 可解释性:工具调用日志在 84 % 的案例中与人工推理保持一致,提供了清晰的审计轨迹。
  • 鲁棒性:在加入视觉噪声或歧义表述时,ARM‑Thinker 的性能下降幅度远小于静态奖励模型,验证了即时验证的优势。

实际意义

  • 更可靠的视觉‑语言 API – 将 ARM‑Thinker 作为评分层部署,可在高风险领域(如医学影像或法律文档分析)中捕获幻觉,防止错误信息传递给终端用户。
  • 即插即用的工具集成 – 开发者可以在不重新训练整个模型的情况下扩展工具库(如 OCR、GIS 查询),RL 控制器能够以少量数据学习使用新工具。
  • 审计就绪的 AI 系统 – 显式的工具调用轨迹满足可解释性合规要求,便于在受监管行业中对 AI 服务进行认证。
  • 成本效益的扩展 – 由于模型仅在必要时调用昂贵工具,推理预算保持低位,同时在困难案例上仍能实现高准确率。
  • 面向 Agentic LLM 的基础 – 该架构展示了将工具使用能力直接嵌入奖励模型的可行路径,为更自主的多模态助理奠定基础。

局限性与未来工作

  • 工具依赖性 – 性能受外部工具质量和可用性的制约;缺失或性能不佳的工具会成为系统瓶颈。
  • 训练复杂度 – 多阶段 RL 增加了工程成本,需要仔细调节工具使用成本与奖励收益之间的权衡。
  • 对未见工具的泛化 – 虽然控制器能在已知工具中进行选择,但要扩展到全新工具类型仍需额外微调。
  • 证据日志的可扩展性 – 在大规模部署时,存储和处理详细的工具调用日志可能会占用大量存储资源。

未来研究方向包括:扩展工具库(如 3‑D 模型查看器、实时传感器数据),探索元学习方法实现对新工具的快速适应,以及引入成本感知调度进一步优化推理预算。

作者

  • Ding Shengyuan
  • Fang Xinyu
  • Liu Ziyu
  • Zang Yuhang
  • Cao Yuhang
  • Zhao Xiangyu
  • Duan Haodong
  • Dong Xiaoyi
  • Liang Jianze
  • Wang Bin
  • He Conghui
  • Lin Dahua
  • Wang Jiaqi

论文信息

  • arXiv ID: 2512.05111v1
  • 分类: cs.CV
  • 发布日期: 2025 年 12 月 4 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »