[Paper] SPARTA:可扩展且原则性的树结构多跳问答文本与表格基准

发布: (2026年2月27日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.23286v1

Overview

本文介绍了 SPARTA,一个用于自动构建大规模基准的全新框架,旨在测试模型在 跨表格与自由文本的多跳推理 能力。通过生成数千个包含复杂操作(聚合、分组、嵌套查询)的高质量问答对,SPARTA 揭示了当前跨模态问答系统在现有浅层基准上表现良好,却在更深层次任务中存在的严重不足。

关键贡献

  • Automated benchmark generation: 端到端流水线,可在最少人工验证的情况下创建 Table‑Text QA 数据集(约为 HybridQA 标注工作量的 ¼)。
  • Fact‑grounded reference database: 为每个源表添加由伴随段落中自动抽取的原子事实生成的 “grounding tables”。
  • Controlled multi‑hop query synthesis: 生成深度与目标跳数相匹配的嵌套 SQL‑style 查询,从而实现对深度推理的系统化测试。
  • Provenance‑based refinement: 改写即使语法有效但会返回空结果的查询,确保可执行性。
  • Realistic‑structure enforcement: 将生成限制为查询图的后序遍历,确保生成的 natural‑language questions 流畅且具有人类风格。
  • Comprehensive benchmark: 包含数千个 QA 对,覆盖聚合、分组以及跨文本和表格的深度多‑hop 推理。
  • Empirical gap analysis: 表明相较于 HybridQA/OTT‑QA,最先进模型在 SPARTA 上的 F1 分下降超过 30 点,凸显出根本性弱点。

方法论

  1. 事实抽取 – 对每段文本,系统使用现成的 OpenIE 工具提取原子事实(主语‑谓语‑宾语三元组)。
  2. 接地表构建 – 将这些事实组织成辅助表,以“接地”非结构化文本,将其链接到原始结构化表。
  3. 查询生成 – 基于文法的生成器创建具有可配置跳数的类 SQL 查询。查询被构建为有向无环图;后序遍历确保真实的嵌套。
  4. 基于来源的细化 – 如果生成的查询会返回空集,系统使用来源信息(即哪些表对结果有贡献)重写谓词,直至保证非空答案。
  5. 自然语言表达 – 最终的查询图被线性化为流畅的问题,采用基于模板的表层实现,随后进行轻量的人类验证以确保流畅性。
  6. 数据集组装 – 每个 QA 对包括原始表、相关段落、生成的问题以及正确答案(由执行查询得到)。

结果与发现

  • 基准规模:SPARTA 包含 ≈10K 对问答,对比之前的混合问答数据集规模大约高出一个数量级。
  • 模型性能下降:在 HybridQA 上取得 70 F1 的顶级模型(例如基于 TAPAS 的模型、Table‑Text Fusion)在 SPARTA 上跌至 ≈38 F1;同样,OTT‑QA 模型的分数从 50 F1 降至 ≈18 F1
  • 错误分析:错误主要集中在 (a) 正确对齐文本事实与表格行,(b) 在跨模态上执行聚合/分组操作,和 (c) 在超过 2 步的推理中保持逻辑一致性。
  • 人工验证:仅约 5 % 的生成问题需要人工纠正,验证了流水线的高保真度。

实际影响

  • 更好的模型诊断:开发者可以使用 SPARTA 精确定位跨模态推理流水线出现问题的具体环节(例如聚合处理、多跳链接)。
  • 训练数据增强:生成流水线可以适配于合成特定领域的问答对(金融、医疗等),这些领域中表格和报告共存,从而降低昂贵的标注需求。
  • 新架构基准:SPARTA 鼓励设计能够原生融合关系推理(SQL‑style 操作符)与语言理解的模型,如神经符号混合模型或图增强的 Transformer。
  • 真实场景应用:商业智能仪表盘、数据驱动的聊天机器人以及自动报告生成等应用,将受益于在 SPARTA 深度推理场景下验证的系统。

限制与未来工作

  • 合成偏差:尽管来源细化确保了可执行性,生成的查询仍可能反映底层语法的模式,而非人类查询的全部多样性。
  • 领域覆盖:当前流水线侧重于通用的 Wikipedia 风格表格和段落;扩展到高度专业化的领域可能需要定制的事实抽取规则。
  • 人工验证范围:仅对少量样本进行了人工审查;扩大验证规模可能进一步提升自然度。
  • 未来方向:作者计划加入对抗性查询生成、更丰富的语言改写,并开源用于特定领域基准创建的工具。

作者

  • Sungho Park
  • Jueun Kim
  • Wook‑Shin Han

论文信息

  • arXiv ID: 2602.23286v1
  • 分类: cs.CL, cs.AI, cs.DB, cs.IR
  • 出版日期: 2026年2月26日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »