[Paper] ARM-Thinker:通过代理式工具使用和视觉推理强化多模态生成式奖励模型
发布: (2025年12月5日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.05111v1
概览
本文提出了 ARM‑Thinker,一种全新的多模态奖励模型,能够 主动 使用外部工具(如图像裁剪工具或文档检索 API)来验证自己的判断。通过将奖励打分从静态的“黑箱”操作转变为交互式、基于证据的过程,作者显著提升了视觉定位能力,降低了幻觉现象,并在复杂的视觉‑语言任务上取得了更好的性能。
主要贡献
- Agentic 奖励建模 – 首个能够在评估过程中自主决定 何时、使用哪种 外部工具的奖励模型。
- 工具集成训练流水线 – 多阶段强化学习,同时优化工具选择策略和奖励准确性。
- ARMBench‑VL 套件 – 新的基准覆盖细粒度视觉定位、多页文档推理以及指令跟随验证。
- 显著的性能提升 – 在标准奖励模型基准上平均提升 +16.2 %,在工具使用任务上提升 +9.6 %;在多模态数学和逻辑推理数据集上达到最新水平。
- 可解释性提升 – 模型生成显式的工具调用日志,为每个奖励分数提供可追溯的“原因”。
方法论
- Agentic 架构 – ARM‑Thinker 由视觉‑语言编码器和一个 工具控制器 组成。给定输入(例如图像 + 问题),控制器预测是否需要工具以及调用哪种工具。
- 工具集合 – 作者集成了轻量级实用工具,例如:
- 图像裁剪 / 缩放 用于检查细小区域。
- 文档页检索 用于多页 PDF 或扫描书籍。
- 文本验证 API(如拼写检查、事实核查)。
- 强化学习循环 – 训练分为三个阶段:
- 监督预训练:在人工标注的奖励分数上进行。
- 工具策略微调:模型学习调用能够最大化下游奖励(如正确答案验证)的工具。
- 联合 RL:同时更新奖励打分头和工具选择策略,使用惩罚不必要工具调用、奖励基于证据的正确判断的奖励信号。
- 评估协议 – 对每个基准项,ARM‑Thinker 输出奖励分数 以及 工具调用轨迹,然后与真实证据对比,计算准确率和可解释性指标。
结果与发现
| 基准 | 基线(静态 RM) | ARM‑Thinker | Δ 提升 |
|---|---|---|---|
| 细粒度视觉定位(图像‑工具) | 68.4 % | 84.6 % | +16.2 % |
| 多页文档推理(检索‑工具) | 71.1 % | 80.7 % | +9.6 % |
| 指令跟随验证(文本‑工具) | 73.5 % | 79.2 % | +5.7 % |
| 多模态数学与逻辑(MM‑Math) | 61.3 % | 70.8 % | +9.5 % |
- 工具使用具选择性:平均仅在 27 % 的输入上调用工具,表明模型学会仅在必要时使用工具。
- 可解释性:工具调用日志在 84 % 的案例中与人工推理保持一致,提供了清晰的审计轨迹。
- 鲁棒性:在加入视觉噪声或歧义表述时,ARM‑Thinker 的性能下降幅度远小于静态奖励模型,验证了即时验证的优势。
实际意义
- 更可靠的视觉‑语言 API – 将 ARM‑Thinker 作为评分层部署,可在高风险领域(如医学影像或法律文档分析)中捕获幻觉,防止错误信息传递给终端用户。
- 即插即用的工具集成 – 开发者可以在不重新训练整个模型的情况下扩展工具库(如 OCR、GIS 查询),RL 控制器能够以少量数据学习使用新工具。
- 审计就绪的 AI 系统 – 显式的工具调用轨迹满足可解释性合规要求,便于在受监管行业中对 AI 服务进行认证。
- 成本效益的扩展 – 由于模型仅在必要时调用昂贵工具,推理预算保持低位,同时在困难案例上仍能实现高准确率。
- 面向 Agentic LLM 的基础 – 该架构展示了将工具使用能力直接嵌入奖励模型的可行路径,为更自主的多模态助理奠定基础。
局限性与未来工作
- 工具依赖性 – 性能受外部工具质量和可用性的制约;缺失或性能不佳的工具会成为系统瓶颈。
- 训练复杂度 – 多阶段 RL 增加了工程成本,需要仔细调节工具使用成本与奖励收益之间的权衡。
- 对未见工具的泛化 – 虽然控制器能在已知工具中进行选择,但要扩展到全新工具类型仍需额外微调。
- 证据日志的可扩展性 – 在大规模部署时,存储和处理详细的工具调用日志可能会占用大量存储资源。
未来研究方向包括:扩展工具库(如 3‑D 模型查看器、实时传感器数据),探索元学习方法实现对新工具的快速适应,以及引入成本感知调度进一步优化推理预算。
作者
- Ding Shengyuan
- Fang Xinyu
- Liu Ziyu
- Zang Yuhang
- Cao Yuhang
- Zhao Xiangyu
- Duan Haodong
- Dong Xiaoyi
- Liang Jianze
- Wang Bin
- He Conghui
- Lin Dahua
- Wang Jiaqi
论文信息
- arXiv ID: 2512.05111v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 4 日
- PDF: Download PDF