[Paper] ViTaB-A：评估多模态大型语言模型在视觉表格属性归因上的表现

发布: 3天前 (2026年2月18日 GMT+8 02:01)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.15769v1

概览

论文 “ViTaB‑A: Evaluating Multimodal Large Language Models on Visual Table Attribution” 探讨了多模态大语言模型（mLLMs）一个关键但尚未充分研究的能力：能够指向表格中确切的行和列以证明给定答案的依据。虽然许多模型能够回答以 Markdown、JSON 或图像形式编码的表格问题，开发者仍常常需要了解答案来源的位置——尤其在金融、医疗或合规等对可追溯性要求严格的领域。作者对多款最先进的 mLLM 进行基准测试，揭示了原始问答性能与细粒度归因可靠性之间的显著差距。

关键贡献

结构化数据归因的形式化定义（行/列引用），适用于三种格式的表格：Markdown、JSON 和渲染图像。
ViTaB‑A 基准套件，包含多样化的表格‑问题对，并提供真实的行/列引用。
全面评估 多种多模态大语言模型系列（如 GPT‑4‑V、LLaVA、Gemini‑Pro‑Vision），使用多种提示策略（零样本、少样本、思考链）。
实证发现 归因准确率远低于问答准确率——在 JSON 输入时常接近随机水平。
失败模式分析，显示模型在引用行方面优于列，并且在视觉（图像）表格上表现最佳，而在文本（Markdown/JSON）表格上表现较差。
开源发布 基准数据、评估脚本以及详细的归因指标，以促进可复现性。

方法论

数据集构建

收集了 1,200 个来自公共仓库（例如 Wikipedia、开放政府数据）的真实表格。
对每个表格生成 3–5 条自然语言问题，并手动标注确切的支持行和列。
将每个表格以三种形式呈现：纯 Markdown 文本、JSON 键‑值结构和光栅图像（PNG）。

模型选择与提示设计

测试了 7 种公开可用的 mLLM，涵盖视觉‑语言和仅文本系列。
设计了三种提示模板：
1. 直接 QA：“回答问题。”
2. 引用感知：“回答并列出支持答案的行/列 ID。”
3. 思考链：“逐步解释，然后引用证据。”

评估指标

QA Accuracy – 答案字符串的完全匹配。
Row Attribution Recall/Precision – 正确引用的行的比例。
Column Attribution Recall/Precision – 正确引用的列的比例。
Combined Attribution F1 – 行列得分的调和平均。

统计分析

使用自助法置信区间（1,000 次抽样）评估模型和格式之间差异的显著性。

所有步骤均使用 Python 脚本实现，利用 OpenAI、Hugging Face 和 Google Gemini API 以确保可复现性。

结果与发现

模型（系列）	QA 准确率	行归因 F1	列归因 F1	总体归因 F1
GPT‑4‑V (Vision)	68 %	45 %	31 %	38 %
LLaVA‑13B	55 %	28 %	19 %	23 %
Gemini‑Pro‑Vision	62 %	41 %	27 %	34 %
其他（平均）	58 %	22 %	15 %	18 %

QA 与归因差距：虽然 QA 准确率在 55‑70 % 左右，但归因 F1 分数下降到 15‑38 %，表明模型常常“猜”答案而没有依据。
格式依赖：在 JSON 表格 上的归因接近随机（≈10 % F1），而 图像表格 获得最高分（≈38 % F1）。
行 vs. 列：模型对行的引用更可靠（≈10 % 更高的 F1）而非列，暗示它们更像把表格视作列表而非矩阵。
提示影响：链式思考提示略微提升归因（≈5 % 绝对增益），但仍远低于 QA 表现。
模型系列差异：视觉增强模型（GPT‑4‑V、Gemini‑Pro‑Vision）在视觉表格上优于纯文本 mLLM，但都未实现稳健的引用。

结论：当前的 mLLM 能回答基于表格的问题，但在提供透明、可追溯的证据方面仍不可靠——尤其是当源数据以结构化文本形式呈现时。

Practical Implications

场景	为什么归因很重要	发现的影响
Financial reporting dashboards	审计员需要看到哪些行/列支撑了 KPI	mLLM 生成的洞察需要人工验证层；盲目依赖风险很大。
Healthcare data analysis	临床决策必须可追溯到患者记录	当前模型可能错误归因，导致合规违规。
Business intelligence (BI) tools	用户期望 AI 辅助查询具备“下钻”能力	开发者应在模型答案旁展示原始查询结果，或回退到基于规则的抽取。
Regulatory compliance (e.g., GDPR, SOX)	必须提供数据来源的证据	低归因分数意味着 mLLM 仍无法满足审计追踪要求。
Developer tooling (e.g., Copilot for data notebooks)	行内代码建议需要引用来源单元格	引入验证步骤（例如提示模型重新执行一个简单的 SELECT）可以提升可信度。

Actionable advice for engineers

Never expose raw model answers as final decisions—always pair them with a deterministic extraction routine (SQL/JSONPath) that can be independently verified.
Prefer visual table inputs (e.g., screenshots) if you must rely on model attribution, but still treat the output as a hint rather than proof.
Leverage chain‑of‑thought prompting to coax the model into reasoning steps, then parse the intermediate citations for sanity checks.
Implement fallback mechanisms: if the model’s attribution confidence (e.g., token‑level log‑probability) falls below a threshold, revert to a rule‑based extractor.
Monitor attribution metrics in production (e.g., track row/column recall) to catch drift as models are updated.

限制与未来工作

表格复杂度范围：基准测试聚焦于中等规模的表格（≤30 行，≤10 列）。更大、层级化的表格可能会加剧归属失败。
提示工程深度：仅探索了三种提示模板；更复杂的提示方式（例如自我批评循环）可能提升引用准确性。
模型访问权限：部分评估模型为专有黑箱，限制了对其遗漏引用原因的洞察。
真实标注模糊性：某些问题存在多个有效的支持单元格；当前标注仅采用单一“黄金”引用，可能会惩罚正确的替代归属。

作者提出的未来研究方向包括：

将 ViTaB‑A 扩展至 嵌套 JSON 和 透视表。
设计 训练目标，显式奖励引用（例如通过带有“cite‑cells”损失的多任务微调）。
探索 检索增强流水线，让确定性提取器提供候选单元格，随后由 LLM 进行验证。
研究 可解释性工具（如注意力可视化），诊断模型为何忽视列线索。

作者

Yahia Alqurnawi
Preetom Biswas
Anmol Rao
Tejas Anvekar
Chitta Baral
Vivek Gupta

论文信息

arXiv ID: 2602.15769v1
分类: cs.CL
出版日期: 2026年2月17日
PDF: 下载 PDF

[Paper] ViTaB-A：评估多模态大型语言模型在视觉表格属性归因上的表现

概览

关键贡献

方法论

数据集构建

模型选择与提示设计

评估指标

统计分析

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 这是什么语言？问问你的 Tokenizer

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[Paper] 揭示波斯语语言模型中的事实-概念鸿沟