[Paper] VTCBench:视觉语言模型能否通过视觉-文本压缩理解长上下文?

发布: (2025年12月18日 GMT+8 01:58)
8 min read
原文: arXiv

Source: arXiv - 2512.15649v1

请提供您希望翻译的具体文本内容,我将按照要求将其翻译成简体中文并保留原有的格式。

概述

本文 VTCBench: Can Vision‑Language Models Understand Long Context with Vision‑Text Compression? 探讨了现代视觉‑语言模型(VLM)是否真的能够在视觉‑文本压缩(VTC)技术(如 DeepSeek‑OCR 和 Glyph)生成的超密集视觉表示上进行推理。通过将长篇文本转换为紧凑的二维图像,VTC 能实现 3‑×‑至 20‑× 的 token 节省,但尚不清楚 VLM 是否仍能捕捉大型语言模型(LLM)擅长的长程依赖关系。作者提出了首个系统化的基准来评估此问题,并揭示了一个令人惊讶的差距:大多数 VLM 能够很好地解码视觉文本,却在理解和推理压缩后的长上下文信息方面表现乏力。

关键贡献

  • VTCBench Suite – 一个包含三项任务(VTC‑Retrieval、VTC‑Reasoning、VTC‑Memory)的基准,用于评估在上下文以压缩视觉图像形式提供时,VLM 对长上下文的理解能力。
  • VTCBench‑Wild – “野生型”扩展,混合真实世界的 OCR 噪声、多样化布局和多模态输入,以模拟生产场景。
  • 全面评估 – 对领先的开源模型(如 LLaVA、MiniGPT‑4)和专有模型(如 GPT‑4V、Gemini Vision)在该基准上的系统性测试。
  • 实证洞察 – 发现尽管 OCR 表现强劲,大多数 VLM 在检索、聚合或推理跨压缩视觉画布分布的信息时仍然失败。
  • 开源发布 – 基准代码、数据和评估脚本已公开发布,以推动对可扩展 VLM 架构的进一步研究。

Methodology

  1. 视觉‑文本压缩 (VTC) – 将长文本段落(最多数千个 token)渲染为高分辨率图像,使用 OCR 友好的字体和布局策略,实现 3‑×‑20‑× 的 token 压缩。
  2. 任务设计
    • VTC‑检索:模型接收查询和 VTC 图像;它必须在图像中定位并提取相关片段。
    • VTC‑推理:查询要求模型推断与视觉文本在词汇上不重叠的关系(例如,“第 3 段提到的公司是谁创立的?”)。
    • VTC‑记忆:多轮对话中,早期轮次仅存储在 VTC 图像中;模型必须回答依赖该长期视觉记忆的问题。
  3. 评估协议 – 对每个任务计算标准指标(检索的 Recall@k、推理的 Exact Match / F1、记忆的 QA 正确率)。每个测试案例均附有人类验证的真实标注。
  4. 模型交互 – 对 VLM 进行简短文本指令加 VTC 图像的提示;不进行额外微调,模拟零样本使用场景。

Results & Findings

模型(Zero‑shot)VTC‑检索 (R@5)VTC‑推理 (F1)VTC‑记忆 (Acc)
GPT‑4V (proprietary)0.680.550.62
Gemini Vision (proprietary)0.610.480.57
LLaVA‑1.5 (open‑source)0.340.220.28
MiniGPT‑4 (open‑source)0.290.180.25
Otter (open‑source)0.310.200.27

关键要点

  • OCR 不是瓶颈 – 即使在从图像中提取文本方面表现出色的模型(例如 GPT‑4V),在要求 使用 这些文本进行推理时仍会急剧下降。
  • 长程依赖丢失 – 当所需推理跨越 VTC 图像中多个空间上相距较远的区域时,性能会崩溃。
  • 开源差距 – 当前社区 VLM 与专有系统相比落后 20‑30 个百分点,表明需要更好的长上下文视觉编码器或混合架构。

实际影响

  • 可扩展的检索增强生成 – 希望将大型语言模型连接到海量文档语料(如法律合同、代码库)的公司,不能仅依赖 VTC + 现成的 VLM;仍然需要专门的检索层或文本‑视觉混合流水线。
  • 边缘设备知识库 – VTC 有望将数 GB 文本压缩进一张能放入设备内存的图像。基准测试表明,若没有专门的 VLM 训练,设备只能读取而无法理解内容。
  • 成本效益高的提示工程 – 通过量化压缩与理解的权衡,产品团队可以决定何时使用 VTC(例如纯 OCR 或简单查询)以及何时保留原始 token 流(例如复杂推理)。
  • 未来 VLM 的设计 – 这些发现激发了以下研究方向
    1. 保持位置信息和关系线索的层次化视觉编码器,
    2. 将 OCR 输出与语言模型记忆融合的多模态适配器,
    3. 明确奖励对视觉文本进行长上下文推理的训练目标。

限制与未来工作

  • 零样本聚焦 – 本研究在未对 VTC 数据进行微调的情况下评估模型;仍未确定通过有针对性的训练能恢复多少性能。
  • 合成布局偏差 – 虽然 VTCBench‑Wild 增加了真实感,但基准仍依赖生成的文档布局;真正噪声较大的真实扫描(手写笔记、低分辨率照片)可能会暴露出更多失效模式。
  • 度量范围 – 检索和推理使用标准的召回率/F1 进行衡量;更细致的度量(例如推理链完整性)可以更好地捕捉细微的理解差距。
  • 未来方向 – 作者建议探索
    1. OCR 与 LLM 的联合预训练,
    2. 编码文档结构的基于图的视觉表示,和
    3. 根据查询复杂度在文本和视觉编码之间切换的自适应 token 预算策略。

底线:视觉‑文本压缩可以显著缩小 token 占用,但当前的 VLM 仍未准备好在生成的密集视觉上下文上进行推理。VTCBench 照亮了这一差距,并为社区提供了一个具体平台,以构建下一代可扩展的长上下文视觉语言系统。

作者

  • Hongbo Zhao
  • Meng Wang
  • Fei Zhu
  • Wenzhuo Liu
  • Bolin Ni
  • Fanhu Zeng
  • Gaofeng Meng
  • Zhaoxiang Zhang

论文信息

  • arXiv ID: 2512.15649v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发布时间: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »