[Paper] 少看,准看:双向感知塑形用于多模态推理

发布: (2025年12月27日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.22120v1

概述

论文《See Less, See Right: Bi‑directional Perceptual Shaping For Multimodal Reasoning》针对视觉语言模型(VLM)中长期存在的问题:这些模型往往依赖粗糙的视觉提示,甚至仅凭文本回答,从而在需要细粒度视觉证据的任务(例如读取图表的折线)上表现受限。作者提出了 Bi‑directional Perceptual Shaping (BiPS),这是一种训练阶段的技术,能够教会 VLM where to lookwhat to ignore,且不增加任何推理时的额外开销。

关键贡献

  • Bidirectional visual guidance:生成每张图像的两个互补“视图”——一个保留与问题相关的区域,另一个消除这些区域——将它们转化为明确的“关注位置”信号。
  • KL‑based consistency & separation losses:使用 Kullback‑Leibler 散度来 (1) 强制模型对原始图像的感知匹配保留证据的视图(粗略覆盖),以及 (2) 将其远离证据被消除的视图(抑制仅文本的捷径)。
  • Training‑only overhead:这些塑形信号仅在训练期间需要;推理时模型的运行方式与普通 VLM 完全相同,保持低延迟。
  • Strong empirical gains:在八个多模态推理基准上,使 Qwen2.5‑VL‑7B 的平均性能提升 8.2 %,并展示了对未见数据集和图像模态的稳健域外泛化能力。
  • Domain‑agnostic design:无需手工制作的视觉检测器或任务特定提示,适用于广泛的视觉语言任务。

方法论

  1. 为每个训练示例创建两个遮蔽视图

    • 证据保留视图 (EPV):仅保留那些可能支持答案的像素(通过基于问题的轻量级显著图识别)。
    • 证据剔除视图 (EAV):遮蔽相同的像素,留下图像的其余部分。
  2. KL‑一致性损失

    • 在原始图像上的模型输出分布(例如 token logits)被迫接近其在 EPV 上的输出。这鼓励模型关注所有相关区域,即使这些区域较为粗糙。
  3. KL‑分离损失

    • 原始图像上的输出被推向远离 EAV 上的输出。如果在关键视觉证据被移除后模型仍能正确回答,说明它可能依赖文本捷径;该损失会惩罚这种行为。
  4. 联合训练

    • 标准的 VLM 损失(例如答案的交叉熵)与两个 KL 项结合。整体目标端到端优化;测试时不需要额外模块。

该流程可以形象化为一个“教师”,向模型展示图像的模糊版本(EPV)和打孔版本(EAV),模型在学习时保持前者的预测稳定,而后者的预测不稳定。

结果与发现

BenchmarkBaseline (Qwen2.5‑VL‑7B)+ BiPSΔ (↑)
VQA‑CP45.1 %52.3 %+7.2 %
ChartQA38.4 %46.9 %+8.5 %
DocVQA61.0 %68.1 %+7.1 %
… (total 8)+8.2 % avg
  • 细粒度依赖:消融实验表明,在测试时提供 EAV 会导致性能下降 30 %,验证模型确实依赖于被掩码的证据。
  • 跨域鲁棒性:在未见过的数据集(例如医学图表、卫星影像)上评估时,经过 BiPS 训练的模型保留了 > 75 % 的域内提升,而基线模型则显著下降。
  • 零推理开销:由于 EPV/EAV 掩码在训练后被丢弃,延迟和内存占用与原始模型完全相同。

实际意义

  • 更可信的 VLM:开发者可以部署更不容易仅凭文本线索产生幻觉答案的视觉语言助手,这在合规要求严格的行业(金融、医疗)中至关重要。
  • 成本效益的扩展:由于 BiPS 不增加运行时成本,可用于大规模模型(例如 30B+ 参数),而不会增加服务费用。
  • 领域无关的适配:公司可以在专有图像语料库(如工程图纸、GIS 地图)上微调现有 VLM,获得强大的推理能力,而无需构建定制视觉检测器。
  • 提升多模态工具的 UI/UX:能够回答图表、示意图或 UI 截图相关问题的聊天机器人将提供更准确、基于证据的回复,降低用户挫败感和支持工单。

限制与未来工作

  • 显著性估计质量:当前的 EPV/EAV 生成依赖于一个简单的基于问题的显著性图;噪声掩码可能会误导 KL 损失。
  • 局限于分类式推理:该方法主要在多选或简答 VQA 任务上进行评估;将其扩展到开放式生成(例如字幕生成)仍是一个未解之题。
  • 训练开销:虽然推理过程保持不变,但在微调期间创建两个额外视图并计算 KL 项大约会使每步计算量翻倍。
  • 未来方向:作者建议探索学习型掩码生成器、与基于扩散的视觉先验结合,并将 BiPS 应用于多模态检索或指令跟随场景。

作者

  • Shuoshuo Zhang
  • Yizhen Zhang
  • Jingjing Fu
  • Lei Song
  • Jiang Bian
  • Yujiu Yang
  • Rui Wang

论文信息

  • arXiv ID: 2512.22120v1
  • 分类: cs.CV
  • 出版日期: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »