[Paper] VTCBench：视觉语言模型能否通过视觉-文本压缩理解长上下文？

发布: 1个月前 (2025年12月18日 GMT+8 01:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.15649v1

请提供您希望翻译的具体文本内容，我将按照要求将其翻译成简体中文并保留原有的格式。

概述

本文 VTCBench: Can Vision‑Language Models Understand Long Context with Vision‑Text Compression? 探讨了现代视觉‑语言模型（VLM）是否真的能够在视觉‑文本压缩（VTC）技术（如 DeepSeek‑OCR 和 Glyph）生成的超密集视觉表示上进行推理。通过将长篇文本转换为紧凑的二维图像，VTC 能实现 3‑×‑至 20‑× 的 token 节省，但尚不清楚 VLM 是否仍能捕捉大型语言模型（LLM）擅长的长程依赖关系。作者提出了首个系统化的基准来评估此问题，并揭示了一个令人惊讶的差距：大多数 VLM 能够很好地解码视觉文本，却在理解和推理压缩后的长上下文信息方面表现乏力。

关键贡献

VTCBench Suite – 一个包含三项任务（VTC‑Retrieval、VTC‑Reasoning、VTC‑Memory）的基准，用于评估在上下文以压缩视觉图像形式提供时，VLM 对长上下文的理解能力。
VTCBench‑Wild – “野生型”扩展，混合真实世界的 OCR 噪声、多样化布局和多模态输入，以模拟生产场景。
全面评估 – 对领先的开源模型（如 LLaVA、MiniGPT‑4）和专有模型（如 GPT‑4V、Gemini Vision）在该基准上的系统性测试。
实证洞察 – 发现尽管 OCR 表现强劲，大多数 VLM 在检索、聚合或推理跨压缩视觉画布分布的信息时仍然失败。
开源发布 – 基准代码、数据和评估脚本已公开发布，以推动对可扩展 VLM 架构的进一步研究。

Methodology

视觉‑文本压缩 (VTC) – 将长文本段落（最多数千个 token）渲染为高分辨率图像，使用 OCR 友好的字体和布局策略，实现 3‑×‑20‑× 的 token 压缩。
任务设计
- VTC‑检索：模型接收查询和 VTC 图像；它必须在图像中定位并提取相关片段。
- VTC‑推理：查询要求模型推断与视觉文本在词汇上不重叠的关系（例如，“第 3 段提到的公司是谁创立的？”）。
- VTC‑记忆：多轮对话中，早期轮次仅存储在 VTC 图像中；模型必须回答依赖该长期视觉记忆的问题。
评估协议 – 对每个任务计算标准指标（检索的 Recall@k、推理的 Exact Match / F1、记忆的 QA 正确率）。每个测试案例均附有人类验证的真实标注。
模型交互 – 对 VLM 进行简短文本指令加 VTC 图像的提示；不进行额外微调，模拟零样本使用场景。

Results & Findings

模型（Zero‑shot）	VTC‑检索 (R@5)	VTC‑推理 (F1)	VTC‑记忆 (Acc)
GPT‑4V (proprietary)	0.68	0.55	0.62
Gemini Vision (proprietary)	0.61	0.48	0.57
LLaVA‑1.5 (open‑source)	0.34	0.22	0.28
MiniGPT‑4 (open‑source)	0.29	0.18	0.25
Otter (open‑source)	0.31	0.20	0.27

关键要点

OCR 不是瓶颈 – 即使在从图像中提取文本方面表现出色的模型（例如 GPT‑4V），在要求使用这些文本进行推理时仍会急剧下降。
长程依赖丢失 – 当所需推理跨越 VTC 图像中多个空间上相距较远的区域时，性能会崩溃。
开源差距 – 当前社区 VLM 与专有系统相比落后 20‑30 个百分点，表明需要更好的长上下文视觉编码器或混合架构。

实际影响

可扩展的检索增强生成 – 希望将大型语言模型连接到海量文档语料（如法律合同、代码库）的公司，不能仅依赖 VTC + 现成的 VLM；仍然需要专门的检索层或文本‑视觉混合流水线。
边缘设备知识库 – VTC 有望将数 GB 文本压缩进一张能放入设备内存的图像。基准测试表明，若没有专门的 VLM 训练，设备只能读取而无法理解内容。
成本效益高的提示工程 – 通过量化压缩与理解的权衡，产品团队可以决定何时使用 VTC（例如纯 OCR 或简单查询）以及何时保留原始 token 流（例如复杂推理）。
未来 VLM 的设计 – 这些发现激发了以下研究方向
1. 保持位置信息和关系线索的层次化视觉编码器，
2. 将 OCR 输出与语言模型记忆融合的多模态适配器，
3. 明确奖励对视觉文本进行长上下文推理的训练目标。

限制与未来工作

零样本聚焦 – 本研究在未对 VTC 数据进行微调的情况下评估模型；仍未确定通过有针对性的训练能恢复多少性能。
合成布局偏差 – 虽然 VTCBench‑Wild 增加了真实感，但基准仍依赖生成的文档布局；真正噪声较大的真实扫描（手写笔记、低分辨率照片）可能会暴露出更多失效模式。
度量范围 – 检索和推理使用标准的召回率/F1 进行衡量；更细致的度量（例如推理链完整性）可以更好地捕捉细微的理解差距。
未来方向 – 作者建议探索
1. OCR 与 LLM 的联合预训练，
2. 编码文档结构的基于图的视觉表示，和
3. 根据查询复杂度在文本和视觉编码之间切换的自适应 token 预算策略。

底线：视觉‑文本压缩可以显著缩小 token 占用，但当前的 VLM 仍未准备好在生成的密集视觉上下文上进行推理。VTCBench 照亮了这一差距，并为社区提供了一个具体平台，以构建下一代可扩展的长上下文视觉语言系统。

作者

Hongbo Zhao
Meng Wang
Fei Zhu
Wenzhuo Liu
Bolin Ni
Fanhu Zeng
Gaofeng Meng
Zhaoxiang Zhang

论文信息

arXiv ID: 2512.15649v1
分类: cs.CV, cs.AI, cs.CL
发布时间: 2025年12月17日
PDF: 下载 PDF

[Paper] VTCBench：视觉语言模型能否通过视觉-文本压缩理解长上下文？

概述

关键贡献

Methodology

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] TimeLens：重新思考视频时序定位与多模态 LLMs

[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性