[Paper] 无标签,无问题:使用多模态验证器训练视觉推理器
发布: (2025年12月10日 GMT+8 02:30)
6 min read
原文: arXiv
Source: arXiv - 2512.08889v1
Overview
本文提出 Valor,一种全新的训练框架,能够在没有任何人工标注的情况下教会视觉推理系统回答空间查询。通过将大型语言模型(LLM)与视觉语言模型(VLM)配对作为“验证器”,作者让每个模型对对方的输出进行批评和改进,将训练过程转化为自监督循环。最终系统在对象定位精度和关系推理能力上均优于现有的开源模型,甚至超过许多专有模型。
Key Contributions
- 无标注训练管线:通过 LLM 验证器提升推理能力,通过 VLM 验证器提升视觉定位能力,实现联合改进。
- 强化学习循环:LLM 的链式思考推理在 LLM 验证器的反馈下得到细化。
- 自动硬负样本挖掘:VLM 验证器生成具有挑战性的错误视觉匹配,以在没有标注框的情况下强化定位。
- 统一架构:结合语言专用推理模型和视觉专用模型的优势,避免了以往工作中脆弱的程序合成方法。
- 领先的性能:在多个基准空间推理任务上实现最先进的表现,超越开源和商业基线。
Methodology
- 查询分解 – LLM 接收自然语言空间问题(例如 “红色球体在蓝色立方体左侧吗?”),生成逐步的链式思考,将问题拆解为目标检测、关系抽取和逻辑聚合等子任务。
- LLM 验证器(RL 反馈) – 另一个 LLM 对生成的推理轨迹进行评估,给出逻辑一致性和相关性的评分。随后对原始 LLM 进行强化学习微调,以最大化验证器的奖励,促使推理步骤更清晰、更正确。
- 通过 VLM 验证器进行视觉定位 – VLM 为链式思考中提到的对象预测区域提议。基于 VLM 的批评器自动创建硬负样本(例如将 “左” 替换为 “右”),并在没有真实框的情况下训练 VLM 区分正确与错误的定位。
- 联合优化 – 两个验证器协同工作:改进的定位为 LLM 提供更可靠的视觉证据,而更清晰的推理又引导 VLM 聚焦于正确的区域。循环迭代直至收敛。
Results & Findings
- 基准提升:Valor 在 CLEVR‑Rel、GQA‑Spatial 等标准空间推理数据集上,比领先的开源视觉推理模型(如 LLaVA、MiniGPT‑4)提升 8–12% 的绝对准确率。
- 定位改进:VLM 验证器将平均 IoU 误差降低约 15%,证明硬负样本挖掘可以替代人工标注来训练鲁棒的目标检测器。
- 效率:由于无需人工标签,训练成本与微调单一模型相当,却能够匹配或超越依赖大规模标注语料的多阶段流水线的性能。
- 泛化能力:Valor 在分布外查询(如新对象类别或未见过的空间配置)上仍保持优势,表明自监督反馈循环学习到了可迁移的推理模式。
Practical Implications
- 快速原型:开发者只需提供一组示例查询,即可构建视觉问答或机器人感知模块,无需耗费数周进行数据标注。
- 边缘部署:VLM 验证器可以替换为轻量级视觉模型,使 Valor 能在资源受限的设备上运行,同时仍受益于 LLM 的推理能力。
- 提升人机交互:如视觉助理、AR 导航或库存管理等应用可以询问 “最近的灭火器在哪里?” 并得到逻辑严谨且定位准确的答案,增强用户信任。
- 开源生态:作者公开了代码和预训练检查点,社区可以将框架扩展到其他推理领域(时间、因果)或集成专有 LLM/VLM。
Limitations & Future Work
- 依赖强大的预训练模型:系统最终质量取决于基线 LLM 与 VLM,较弱的模型可能无法从验证器反馈中获益。
- 硬负样本挖掘的可扩展性:虽然无需标注,但在超高分辨率图像上生成和评估大量硬负样本会导致计算开销增大。
- 推理范围:当前聚焦于空间关系;将方法扩展到更抽象的推理(如因果、意图)需要更丰富的验证器设计。
- 未来方向:作者计划探索融合音频或深度传感器的多模态验证器,并研究负样本难度随时间自适应的 curriculum‑style 训练。
Authors
- Damiano Marsili
- Georgia Gkioxari
Paper Information
- arXiv ID: 2512.08889v1
- Categories: cs.CV, cs.AI
- Published: December 9, 2025
- PDF: Download PDF