[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

发布: 3天前 (2026年2月27日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23286v1

Overview

本文介绍了 SPARTA，一个用于自动构建大规模基准的全新框架，旨在测试模型在 跨表格与自由文本的多跳推理 能力。通过生成数千个包含复杂操作（聚合、分组、嵌套查询）的高质量问答对，SPARTA 揭示了当前跨模态问答系统在现有浅层基准上表现良好，却在更深层次任务中存在的严重不足。

Automated benchmark generation: 端到端流水线，可在最少人工验证的情况下创建 Table‑Text QA 数据集（约为 HybridQA 标注工作量的 ¼）。
Fact‑grounded reference database: 为每个源表添加由伴随段落中自动抽取的原子事实生成的 “grounding tables”。
Controlled multi‑hop query synthesis: 生成深度与目标跳数相匹配的嵌套 SQL‑style 查询，从而实现对深度推理的系统化测试。
Provenance‑based refinement: 改写即使语法有效但会返回空结果的查询，确保可执行性。
Realistic‑structure enforcement: 将生成限制为查询图的后序遍历，确保生成的 natural‑language questions 流畅且具有人类风格。
Comprehensive benchmark: 包含数千个 QA 对，覆盖聚合、分组以及跨文本和表格的深度多‑hop 推理。
Empirical gap analysis: 表明相较于 HybridQA/OTT‑QA，最先进模型在 SPARTA 上的 F1 分下降超过 30 点，凸显出根本性弱点。

基准规模：SPARTA 包含 ≈10K 对问答，对比之前的混合问答数据集规模大约高出一个数量级。
模型性能下降：在 HybridQA 上取得 70 F1 的顶级模型（例如基于 TAPAS 的模型、Table‑Text Fusion）在 SPARTA 上跌至 ≈38 F1；同样，OTT‑QA 模型的分数从 50 F1 降至 ≈18 F1。
错误分析：错误主要集中在 (a) 正确对齐文本事实与表格行，(b) 在跨模态上执行聚合/分组操作，和 (c) 在超过 2 步的推理中保持逻辑一致性。
人工验证：仅约 5 % 的生成问题需要人工纠正，验证了流水线的高保真度。

更好的模型诊断：开发者可以使用 SPARTA 精确定位跨模态推理流水线出现问题的具体环节（例如聚合处理、多跳链接）。
训练数据增强：生成流水线可以适配于合成特定领域的问答对（金融、医疗等），这些领域中表格和报告共存，从而降低昂贵的标注需求。
新架构基准：SPARTA 鼓励设计能够原生融合关系推理（SQL‑style 操作符）与语言理解的模型，如神经符号混合模型或图增强的 Transformer。
真实场景应用：商业智能仪表盘、数据驱动的聊天机器人以及自动报告生成等应用，将受益于在 SPARTA 深度推理场景下验证的系统。