[Paper] AdaTooler-V：自适应工具使用用于图像和视频

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16918v1

概述

AdaTooler‑V 是一种新型多模态大语言模型（MLLM），它学习何时调用视觉分析工具（例如 OCR、目标检测器），而不是不加区分地调用它们。通过将基于强化学习的奖励调度器与大规模策划数据集相结合，模型能够在运行时决定视觉问题是否真的需要额外处理，从而降低推理成本，同时提升图像和视频推理任务的准确性。

关键贡献

自适应工具使用策略：引入 AT‑GRPO，一种强化学习算法，根据 工具收益评分 对奖励进行缩放，鼓励模型仅在工具能带来可衡量价值时调用视觉工具。
两阶段训练数据管线：
- AdaTooler‑V‑CoT‑100k：一个 100 k 示例思考链（CoT）数据集，用于监督微调（SFT），为模型提供基本的视觉推理模式。
- AdaTooler‑V‑300k：一个 300 k 示例强化学习数据集，具备经验证的工具使用结果，覆盖单图像、多图像和视频场景。
广泛的基准覆盖：在 12 项多样化的视觉推理基准（包括高分辨率 V* 和视频 QA）上进行评估，始终优于开源和商业基线。
开源发布：模型权重（7B）、训练代码和数据集均公开，可实现可重复性和下游扩展。

方法论

Base MLLM – 从标准仅语言 LLM（7 B 参数）开始，并通过 tool‑calling interface 增强，使其能够调用外部视觉模块（OCR、目标检测、帧级特征提取器）。
Tool Benefit Score (TBS) – 对每个训练样本，使用轻量启发式（例如使用工具后答案置信度的提升）来量化工具的帮助程度。
AT‑GRPO (Adaptive‑Scale Gradient‑Reward Policy Optimization) – 一个强化学习循环，：
- 计算奖励 = 基础正确性 + α·TBS，其中 α 根据样本动态调整。
- 更新策略，使得高 TBS 样本获得更强的调用工具激励，而低 TBS 样本因不必要的调用而受到惩罚。
Two‑phase training –
- Supervised fine‑tuning 在 CoT‑100k 集上进行，教会模型生成逐步推理并输出 “use‑tool?” 标记。
- RL fine‑tuning 在 AdaTooler‑V‑300k 集上进行，使用 AT‑GRPO 奖励细化决策策略。
Inference – 在运行时，模型在任何重型视觉处理之前预测一个二元 “tool‑needed?” 标志。如果该标志为 false，则仅进行纯语言推理，从而节省 GPU 计算和延迟。

结果与发现

基准	AdaTooler‑V‑7B	GPT‑4o	Gemini 1.5 Pro	平均开源
V*（高分辨率）	89.8 %	86.4 %	87.1 %	78.3 %
多图问答	84.2 %	80.1 %	81.5 %	72.9 %
视频问答（AVQA）	81.7 %	78.0 %	79.3 %	70.4 %
12 项任务的平均	86.5 %	82.3 %	83.0 %	73.1 %

推理效率：平均而言，AdaTooler‑V 会跳过约 38 % 查询的工具调用，与“一直调用工具”的朴素基线相比，GPU 内存使用降低约 1.2 倍，延迟降低约 30 %。
鲁棒性：自适应策略在不同模态（静态图像 vs. 视频帧）下保持稳定，并且在更高分辨率下扩展时不会出现性能下降。

实际影响

成本效益高的 AI 服务 – 提供视觉问答的 SaaS 平台（例如文档处理、视觉搜索）可以通过避免不必要的 OCR 或检测调用，降低云计算费用。
边缘部署 – 在计算资源受限的设备（移动端、物联网）上，模型可以在本地决定是否将繁重的视觉模块转移到云端，从而优化带宽和电池寿命。
开发者友好性 – 开源的工具调用 API 与流行框架（LangChain、LlamaIndex）相似，便于插入自定义视觉模块或用领域特定检测器替换默认模块。
快速原型开发 – 已发布的 CoT‑100k 和 RL‑300k 数据集提供了即用的课程，可用于对其他大语言模型进行自适应多模态推理的微调，加速研究周期。

限制与未来工作

工具库仅限预定义视觉模块 – 当前实现仅支持固定的 OCR、目标检测和帧级特征提取器。扩展到更专业的工具（例如医学影像分析）需要额外的奖励校准工作。
奖励估计依赖启发式方法 – 工具收益分数通过置信度提升近似；噪声或偏差的启发式方法可能在极端情况下误导强化学习信号。
向更大规模 LLM 主干的可扩展性 – 实验仅限于 7 B 模型；尚不清楚自适应策略是否能不变地迁移到 30 B+ 模型。
实时视频流 – 虽然模型能够处理短视频片段，但连续流媒体场景（如实时监控）需要更复杂的时序预算策略。

AdaTooler‑V 表明，更智能、上下文感知的工具使用能够在保持推理轻量的同时缩小与专有巨头的性能差距——这是下一代多模态 AI 系统的有前景方向。

作者

Chaoyang Wang
Kaituo Feng
Dongyang Chen
Zhongyu Wang
Zhixun Li
Sicheng Gao
Meng Meng
Xu Zhou
Manyuan Zhang
Yuzhang Shang
Xiangyu Yue

论文信息

arXiv ID: 2512.16918v1
类别: cs.CV
发表时间: 2025年12月18日
PDF: 下载 PDF

[Paper] AdaTooler-V：自适应工具使用用于图像和视频

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性