从行到推理:用于电子表格理解的检索增强多模态框架

发布: (2026年1月14日 GMT+8 01:18)
6 min read
原文: arXiv

Source: arXiv - 2601.08741v1

概述

本文介绍了 FRTR,一种检索增强的多模态框架,使大型语言模型(LLMs)能够对海量、真实世界的 Excel 工作簿进行推理。通过将电子表格拆分为细粒度嵌入,并融合文本、数值和视觉线索,FRTR 在显著提升准确性的同时保持低 token 使用率——使得电子表格 AI 对企业开发者而言变得实用。

关键贡献

  • FRTR‑Bench: 第一个大规模多模态电子表格推理基准(30 个企业工作簿,约 4 M 单元格,50+ 嵌入图像)。
  • 细粒度嵌入管道:行、列和逻辑块分别编码,实现仅检索相关片段的高效检索。
  • 混合词汇‑密集检索与倒数排名融合 (RRF):结合关键词匹配和密集向量相似度,以稳健选择电子表格片段。
  • 多模态集成:将视觉嵌入(图表、收据)与数值/文本嵌入合并,使模型能够回答跨数据类型的问题。
  • 实证提升:在 FRTR‑Bench 上使用 Claude Sonnet 4.5 达到 74 % 准确率(相较之前的 24 % SOTA),在 SpreadsheetLLM 上使用 GPT‑5 达到 87 % 准确率,同时将 token 消耗降低约 50 %。

方法论

  1. Chunking the workbook – 将每个工作表解析为三种块:
    • Row chunks(包含完整的行向量)
    • Column chunks(完整的列向量)
    • Block chunks(用户定义的逻辑区域,例如表格或数据透视表)
  2. Embedding generation
    • 文本/数值数据 → 通过预训练的 LLM 编码器生成密集嵌入。
    • 图像(图表、收据) → 使用类似 CLIP 的视觉编码器生成视觉嵌入。
  3. Hybrid Retrieval
    • Lexical 检索(BM25)用于在列标题、公式等上找到精确匹配。
    • Dense 检索用于发现语义相关的块。
    • 结果使用 Reciprocal Rank Fusion 合并,以在精度(词法)和召回率(密集)之间取得平衡。
  4. Prompt construction – 将检索到的块拼接成简洁的上下文窗口,并与用户查询一起输入目标 LLM。
  5. Answer generation – LLM 生成自然语言答案,可选地附带公式或对视觉元素的引用。

结果与发现

基准模型(含 FRTR)准确率令牌节省
FRTR‑Bench(30 本工作簿)Claude Sonnet 4.574 %
SpreadsheetLLMGPT‑587 %≈ 50 % 的令牌更少(相较于完整上下文压缩)
之前的 SOTA(相同任务)各种24 %

这意味着:FRTR 的检索步骤仅提取查询所需的行/列/可视化内容,使 LLM 能在不被数百万无关单元格淹没的情况下专注于推理。多模态融合还能让系统回答诸如 “Q3 销售图表显示的趋势是什么?” 之类的问题——纯文本方法无法实现。

实际影响

  • 企业自动化: 开发者可以将 FRTR 嵌入内部机器人,实时回答财务、供应链或人力资源电子表格查询,从而减少手动数据挖掘。
  • 成本效益的 LLM 使用: 将 token 消耗减半直接转化为更低的 API 费用,使大规模电子表格助手在 SaaS 产品中可行。
  • 可扩展到其他办公格式: 同样的检索增强多模态流水线可以适配 Word 文档、PowerPoint 幻灯片,甚至混合表格和图形的 PDF 报告。
  • 提升低代码平台的用户体验: 无代码工具可以提供“询问你的工作簿”功能,让终端用户感受自然,同时在底层保持高性能。

限制与未来工作

  • 检索延迟:虽然分块降低了 token 负载,但混合搜索(BM25 + dense + RRF)增加了一个预处理步骤,对非常大的工作簿可能会有明显的延迟;需要进行索引优化。
  • 领域特定的视觉线索:当前的视觉编码器能够处理通用图表,但在高度定制或低分辨率的图像(例如扫描的收据)上可能表现不佳;在特定领域视觉数据上进行微调是下一步工作。
  • 可解释性:FRTR 能返回答案,但尚未提供哪些行/列对推理贡献最大的透明追踪——这对审计要求严格的行业非常有用。
  • 基准多样性:FRTR‑Bench 侧重于企业 Excel 文件;扩展到 Google Sheets、LibreOffice 以及跨文件工作流将提升适用范围。

结论:FRTR 表明,智能检索前端结合多模态嵌入,能够为开发下一代 AI 助手的开发者解锁可靠且成本效益高的电子表格推理能力。

作者

  • Anmol Gulati
  • Sahil Sen
  • Waqar Sarguroh
  • Kevin Paul

论文信息

  • arXiv ID: 2601.08741v1
  • 分类: cs.CL
  • 出版时间: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »