[Paper] ARM-Thinker：通过代理式工具使用和视觉推理强化多模态生成式奖励模型

发布: 2个月前 (2025年12月5日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05111v1

概览

本文提出了 ARM‑Thinker，一种全新的多模态奖励模型，能够主动使用外部工具（如图像裁剪工具或文档检索 API）来验证自己的判断。通过将奖励打分从静态的“黑箱”操作转变为交互式、基于证据的过程，作者显著提升了视觉定位能力，降低了幻觉现象，并在复杂的视觉‑语言任务上取得了更好的性能。

Agentic 架构 – ARM‑Thinker 由视觉‑语言编码器和一个 工具控制器 组成。给定输入（例如图像 + 问题），控制器预测是否需要工具以及调用哪种工具。
工具集合 – 作者集成了轻量级实用工具，例如：
- 图像裁剪 / 缩放 用于检查细小区域。
- 文档页检索 用于多页 PDF 或扫描书籍。
- 文本验证 API（如拼写检查、事实核查）。
强化学习循环 – 训练分为三个阶段：
- 监督预训练：在人工标注的奖励分数上进行。
- 工具策略微调：模型学习调用能够最大化下游奖励（如正确答案验证）的工具。
- 联合 RL：同时更新奖励打分头和工具选择策略，使用惩罚不必要工具调用、奖励基于证据的正确判断的奖励信号。
评估协议 – 对每个基准项，ARM‑Thinker 输出奖励分数以及工具调用轨迹，然后与真实证据对比，计算准确率和可解释性指标。

基准	基线（静态 RM）	ARM‑Thinker	Δ 提升
细粒度视觉定位（图像‑工具）	68.4 %	84.6 %	+16.2 %
多页文档推理（检索‑工具）	71.1 %	80.7 %	+9.6 %
指令跟随验证（文本‑工具）	73.5 %	79.2 %	+5.7 %
多模态数学与逻辑（MM‑Math）	61.3 %	70.8 %	+9.5 %

更可靠的视觉‑语言 API – 将 ARM‑Thinker 作为评分层部署，可在高风险领域（如医学影像或法律文档分析）中捕获幻觉，防止错误信息传递给终端用户。
即插即用的工具集成 – 开发者可以在不重新训练整个模型的情况下扩展工具库（如 OCR、GIS 查询），RL 控制器能够以少量数据学习使用新工具。
审计就绪的 AI 系统 – 显式的工具调用轨迹满足可解释性合规要求，便于在受监管行业中对 AI 服务进行认证。
成本效益的扩展 – 由于模型仅在必要时调用昂贵工具，推理预算保持低位，同时在困难案例上仍能实现高准确率。
面向 Agentic LLM 的基础 – 该架构展示了将工具使用能力直接嵌入奖励模型的可行路径，为更自主的多模态助理奠定基础。

未来研究方向包括：扩展工具库（如 3‑D 模型查看器、实时传感器数据），探索元学习方法实现对新工具的快速适应，以及引入成本感知调度进一步优化推理预算。