[Paper] ViTaB-A:评估多模态大型语言模型在视觉表格属性归因上的表现
发布: (2026年2月18日 GMT+8 02:01)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.15769v1
概览
论文 “ViTaB‑A: Evaluating Multimodal Large Language Models on Visual Table Attribution” 探讨了多模态大语言模型(mLLMs)一个关键但尚未充分研究的能力:能够指向表格中确切的行和列以证明给定答案的依据。虽然许多模型能够回答以 Markdown、JSON 或图像形式编码的表格问题,开发者仍常常需要了解答案来源的位置——尤其在金融、医疗或合规等对可追溯性要求严格的领域。作者对多款最先进的 mLLM 进行基准测试,揭示了原始问答性能与细粒度归因可靠性之间的显著差距。
关键贡献
- 结构化数据归因的形式化定义(行/列引用),适用于三种格式的表格:Markdown、JSON 和渲染图像。
- ViTaB‑A 基准套件,包含多样化的表格‑问题对,并提供真实的行/列引用。
- 全面评估 多种多模态大语言模型系列(如 GPT‑4‑V、LLaVA、Gemini‑Pro‑Vision),使用多种提示策略(零样本、少样本、思考链)。
- 实证发现 归因准确率远低于问答准确率——在 JSON 输入时常接近随机水平。
- 失败模式分析,显示模型在引用行方面优于列,并且在视觉(图像)表格上表现最佳,而在文本(Markdown/JSON)表格上表现较差。
- 开源发布 基准数据、评估脚本以及详细的归因指标,以促进可复现性。
方法论
数据集构建
- 收集了 1,200 个来自公共仓库(例如 Wikipedia、开放政府数据)的真实表格。
- 对每个表格生成 3–5 条自然语言问题,并手动标注确切的支持行和列。
- 将每个表格以三种形式呈现:纯 Markdown 文本、JSON 键‑值结构和光栅图像(PNG)。
模型选择与提示设计
- 测试了 7 种公开可用的 mLLM,涵盖视觉‑语言和仅文本系列。
- 设计了三种提示模板:
- 直接 QA:“回答问题。”
- 引用感知:“回答并列出支持答案的行/列 ID。”
- 思考链:“逐步解释,然后引用证据。”
评估指标
- QA Accuracy – 答案字符串的完全匹配。
- Row Attribution Recall/Precision – 正确引用的行的比例。
- Column Attribution Recall/Precision – 正确引用的列的比例。
- Combined Attribution F1 – 行列得分的调和平均。
统计分析
- 使用自助法置信区间(1,000 次抽样)评估模型和格式之间差异的显著性。
所有步骤均使用 Python 脚本实现,利用 OpenAI、Hugging Face 和 Google Gemini API 以确保可复现性。
结果与发现
| 模型(系列) | QA 准确率 | 行归因 F1 | 列归因 F1 | 总体归因 F1 |
|---|---|---|---|---|
| GPT‑4‑V (Vision) | 68 % | 45 % | 31 % | 38 % |
| LLaVA‑13B | 55 % | 28 % | 19 % | 23 % |
| Gemini‑Pro‑Vision | 62 % | 41 % | 27 % | 34 % |
| 其他(平均) | 58 % | 22 % | 15 % | 18 % |
- QA 与归因差距:虽然 QA 准确率在 55‑70 % 左右,但归因 F1 分数下降到 15‑38 %,表明模型常常“猜”答案而没有依据。
- 格式依赖:在 JSON 表格 上的归因接近随机(≈10 % F1),而 图像表格 获得最高分(≈38 % F1)。
- 行 vs. 列:模型对行的引用更可靠(≈10 % 更高的 F1)而非列,暗示它们更像把表格视作列表而非矩阵。
- 提示影响:链式思考提示略微提升归因(≈5 % 绝对增益),但仍远低于 QA 表现。
- 模型系列差异:视觉增强模型(GPT‑4‑V、Gemini‑Pro‑Vision)在视觉表格上优于纯文本 mLLM,但都未实现稳健的引用。
结论:当前的 mLLM 能回答基于表格的问题,但在提供透明、可追溯的证据方面仍不可靠——尤其是当源数据以结构化文本形式呈现时。
Practical Implications
| 场景 | 为什么归因很重要 | 发现的影响 |
|---|---|---|
| Financial reporting dashboards | 审计员需要看到哪些行/列支撑了 KPI | mLLM 生成的洞察需要人工验证层;盲目依赖风险很大。 |
| Healthcare data analysis | 临床决策必须可追溯到患者记录 | 当前模型可能错误归因,导致合规违规。 |
| Business intelligence (BI) tools | 用户期望 AI 辅助查询具备“下钻”能力 | 开发者应在模型答案旁展示原始查询结果,或回退到基于规则的抽取。 |
| Regulatory compliance (e.g., GDPR, SOX) | 必须提供数据来源的证据 | 低归因分数意味着 mLLM 仍无法满足审计追踪要求。 |
| Developer tooling (e.g., Copilot for data notebooks) | 行内代码建议需要引用来源单元格 | 引入验证步骤(例如提示模型重新执行一个简单的 SELECT)可以提升可信度。 |
Actionable advice for engineers
- Never expose raw model answers as final decisions—always pair them with a deterministic extraction routine (SQL/JSONPath) that can be independently verified.
- Prefer visual table inputs (e.g., screenshots) if you must rely on model attribution, but still treat the output as a hint rather than proof.
- Leverage chain‑of‑thought prompting to coax the model into reasoning steps, then parse the intermediate citations for sanity checks.
- Implement fallback mechanisms: if the model’s attribution confidence (e.g., token‑level log‑probability) falls below a threshold, revert to a rule‑based extractor.
- Monitor attribution metrics in production (e.g., track row/column recall) to catch drift as models are updated.
限制与未来工作
- 表格复杂度范围:基准测试聚焦于中等规模的表格(≤30 行,≤10 列)。更大、层级化的表格可能会加剧归属失败。
- 提示工程深度:仅探索了三种提示模板;更复杂的提示方式(例如自我批评循环)可能提升引用准确性。
- 模型访问权限:部分评估模型为专有黑箱,限制了对其遗漏引用原因的洞察。
- 真实标注模糊性:某些问题存在多个有效的支持单元格;当前标注仅采用单一“黄金”引用,可能会惩罚正确的替代归属。
作者提出的未来研究方向包括:
- 将 ViTaB‑A 扩展至 嵌套 JSON 和 透视表。
- 设计 训练目标,显式奖励引用(例如通过带有“cite‑cells”损失的多任务微调)。
- 探索 检索增强流水线,让确定性提取器提供候选单元格,随后由 LLM 进行验证。
- 研究 可解释性工具(如注意力可视化),诊断模型为何忽视列线索。
作者
- Yahia Alqurnawi
- Preetom Biswas
- Anmol Rao
- Tejas Anvekar
- Chitta Baral
- Vivek Gupta
论文信息
- arXiv ID: 2602.15769v1
- 分类: cs.CL
- 出版日期: 2026年2月17日
- PDF: 下载 PDF