[Paper] V-Retrver: 基于证据驱动的主体推理用于通用多模态检索
发布: (2026年2月6日 GMT+8 02:59)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.06034v1
概述
本文介绍了 V‑Retrver,一个将多模态检索(基于文本查询搜索图像、视频或其他媒体)转化为 agentic 推理过程的新框架。V‑Retrver 不再仅依赖预先计算的视觉嵌入,而是让多模态大语言模型(MLLM)主动向外部工具请求视觉证据,验证其假设,并迭代地改进排序决策。其结果是一个在模糊视觉内容上推理更可靠、并在多个基准上提升检索性能的系统。
关键贡献
- 基于证据的检索范式 – 将检索重新构建为假设生成 → 有针对性的视觉检查 → 假设细化的循环。
- 具备代理能力的 MLLM – 使语言模型能够在推理过程中即时调用外部视觉工具(如目标检测器、OCR、区域提议网络)。
- 基于课程的训练流水线 – 结合监督的“推理激活”数据、基于拒绝的细化阶段,以及带有证据对齐损失的强化学习,以教会模型何时以及如何请求视觉证据。
- 显著的实证提升 – 在多个多模态检索数据集上,相较于强基线,检索准确率平均提升 23 %。
- 展示了泛化能力 – 同一训练好的代理可在不同领域(图文、视频‑文、以及跨模态检索)中使用,无需任务特定的微调。
方法论
问题表述
- 传统的多模态检索流水线会将每个候选图像/视频编码为静态向量,并通过相似度得分进行排序。
- V‑Retrver 将每个候选视为 潜在证据来源,让多模态大语言模型(MLLM)决定是否需要更多视觉信息。
代理推理循环
- 假设生成 – MLLM 读取查询并生成初始排序假设(例如,“答案可能包含一辆红色汽车”)。
- 证据请求 – 若假设不确定,模型发出工具调用,如 “在图像 #3 中检测类型为 ‘car’ 的对象” 或 “对区域 (120,200,300,350) 进行 OCR”。
- 工具执行 – 外部视觉模块处理请求并返回具体证据(对象标签、边界框、文本片段)。
- 验证与细化 – MLLM 将证据纳入考虑,修正置信度分数,并可能继续发出请求,直至满足停止准则。
训练策略
- 课程学习 – 从提供正确证据请求序列的监督示例开始,随后逐步引入需要基于拒绝进行细化的更难案例。
- 基于拒绝的细化 – 模型在看到相矛盾的证据后学习丢弃错误假设,模拟人类的 “尝试‑并‑丢弃” 推理。
- 强化学习(RL) – 证据对齐奖励鼓励模型请求 恰好足够 的证据以得到正确答案,对不必要的工具调用进行惩罚。
- 证据对齐目标 – 损失函数将标准检索排序损失与衡量收集证据与真实视觉线索匹配程度的项相结合。
实现细节
- 基础 MLLM:在多模态适配器上微调的 LLaMA‑2‑7B。
- 视觉工具:预训练的 DETR 用于目标检测,Tesseract OCR,基于 CLIP 的区域嵌入,以及轻量级视频帧采样器。
- 推理开销:≈ 1.8× 于静态编码器更慢,因为仅对 top‑k 候选进行证据请求。
结果与发现
| 基准 | 基线(静态编码器) | V‑Retrver | Δ (↑) |
|---|---|---|---|
| MSCOCO 图像‑文本检索 | 38.2 % Recall@1 | 46.9 % | +23 % |
| Flickr30K | 41.5 % R@1 | 50.8 % | +22 % |
| TV‑QA 视频‑文本检索 | 29.3 % R@1 | 36.7 % | +25 % |
| WebVision(噪声网络图像) | 31.0 % R@1 | 38.5 % | +24 % |
- 可靠性:在视觉上模糊的查询(例如 “一个人手持小物体”)中,V‑Retrver 基于证据的验证将幻觉降低约 40 %,相较于纯语言 CoT 方法。
- 泛化能力:在未进行任何特定数据集微调的情况下,同一代理在图像和视频检索任务上均实现了相似的提升,表明该方法并不依赖于特定模态。
- 效率权衡:每个查询的平均工具调用次数为 2.3,兼顾了性能提升与计算成本。
实际影响
- 更好的搜索引擎 – 将 V‑Retrver‑style 代理集成到图像或视频搜索平台中,可提升相关性,尤其是针对依赖细粒度视觉细节的查询(例如 “红色跑车,车牌可见”)。
- 内容审核 – 能够请求针对性的证据(例如 “检测区域 X 的裸露内容”)可以使自动化审核更精确且可解释。
- 电子商务 – 商品搜索可受益于按需验证(“显示带有可见品牌标志的商品”),无需为每个目录项预先计算完整的属性嵌入。
- 开发者工具包 – 该框架是模块化的——任何现成的视觉模型都可以封装为工具,允许开发者接入特定领域的检测器(医学影像、卫星图像),并让 LLM 协调它们。
- 可解释性 – 由于推理轨迹包含明确的证据请求和工具输出,开发者可以向终端用户展示 “为何得到此结果?” 的视图,提升信任度。
限制与未来工作
- 延迟 – 交互式证据收集循环会增加推理时间,若不进一步优化(例如缓存常用工具结果),可能会对实时应用构成限制。
- 工具依赖 – 检索到的证据质量受到底层视觉模块的限制;检测器性能差会误导推理过程。
- 大规模语料库的可扩展性 – 目前的实验评估 top‑k 候选重排;将该方法扩展到全规模检索(数百万条目)需要高效的候选剪枝策略。
- 从噪声证据中学习 – 未来工作可以探索容忍不完美工具输出的鲁棒强化学习目标,并研究能够自动生成证据请求序列的自监督课程。
V‑Retrver 开辟了一个有前景的方向,使语言模型成为在需要时“观察”世界的主动代理,将静态检索流水线转变为动态、基于证据的系统。
作者
- Dongyang Chen
- Chaoyang Wang
- Dezhao SU
- Xi Xiao
- Zeyu Zhang
- Jing Xiong
- Qing Li
- Yuzhang Shang
- Shichao Ka
论文信息
- arXiv ID: 2602.06034v1
- 分类: cs.CV
- 出版日期: 2026年2月5日
- PDF: 下载 PDF