[Paper] 结构优先,推理随后:利用知识图谱增强大型语言模型,以实现金融文档中的数值推理

发布: (2026年1月13日 GMT+8 01:39)
6 min read
原文: arXiv

Source: arXiv - 2601.07754v1

请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原有的格式。

概述

本文介绍了一种混合框架,将大型语言模型(LLM)与金融文档的知识图谱(KG)表示相结合,以提升数值推理性能。该方法首先从文本中提取结构化模式,然后让 LLM 在该结构之上进行“推理”,从而在 FinQA 基准上实现了答案准确率的显著提升。

关键贡献

  • Schema‑first extraction: 一个轻量级管道,能够直接从原始金融报告中自动构建特定领域的知识图谱(实体、关系和数值属性)。
  • LLM‑KG integration: 一种将知识图谱输入 Llama 3.1 8B Instruct 的方法,使模型在进行计算前先查询结构化事实。
  • Empirical gains: 在 FinQA 上相较于未使用 KG 增强的同一 LLM,执行准确率提升约 12 %(相对提升)。
  • Open‑source reproducibility: 所有代码、KG 构建脚本和评估脚本均已开源,方便其他研究者和工程师复现结果。

方法论

  1. 文档解析与 KG 构建

    • 原始 PDF/HTML 财务报告被分词并通过基于规则的抽取器,识别关键实体(例如 “Revenue”(收入)、“Operating Income”(营业收入)),数值以及关系线索(例如 “increased by”(增长了), “as a percentage of”(占比))。
    • 这些元素被组装成有向图,节点保存数值字面量,边编码语义关系(例如 has‑value(拥有值),derived‑from(来源于))。
  2. 针对 LLM 的提示工程

    • KG 被序列化为简洁、易读的 “facts block”(事实块),并置于原始问题提示之前。
    • LLM 接收两个输入:事实块(结构化上下文)和自然语言查询。
  3. 数值推理循环

    • 模型首先从 KG 中提取相关的数值节点,执行所需的算术运算(加法、减法、百分比计算等),随后生成自然语言答案,并可提供逐步解释。
  4. 评估

    • 实验在 FinQA 数据集上进行,该数据集包含真实世界的金融问答对及其真实执行轨迹。
    • 评估指标:Execution Accuracy(执行准确率——最终数值答案是否与金标准答案匹配)和 Explanation Accuracy(解释准确率——生成的推理步骤与参考答案的吻合程度)。

结果与发现

ModelExecution Accuracy (FinQA)Relative Gain vs. Vanilla LLM
Llama 3.1 8B Instruct (baseline)68.4 %
Llama 3.1 8B Instruct + KG (proposed)76.7 %≈ 12 %
  • KG 增强系统在所有问题类型(算术、比较、聚合)上始终优于普通 LLM。
  • 解释质量也有所提升,模型在给出答案时更频繁地引用正确的 KG 节点。
  • 消融实验表明,去除 KG 或以非结构化格式输入 KG 会使性能回落到基线水平,进一步确认了结构化“事实块”的重要性。

实际意义

  • 金融问答机器人: 开发者可以将 KG 抽取流水线嵌入现有的聊天型助手(例如 Slack 机器人、客服门户),以提供来自年度报告、财报电话会议或 SEC 文件的更可靠的数值答案。
  • 监管科技与合规: 自动审计工具可以利用该框架,对照从文件中抽取的结构化数据验证数值声明(例如“收入同比增长 15 %”),从而降低人工审查工作量。
  • 数据驱动的仪表盘: 通过将 KG 以可查询的 API(如 GraphQL)形式公开,下游分析平台可以进行临时计算,而无需为每个新指标重新训练大模型。
  • 成本效益的扩展: 该方法可在 80 亿参数的开源大模型上运行,这意味着企业可以避免使用专有的大模型所带来的高成本,同时仍能实现业界领先的性能。

限制与未来工作

  • 领域特定性: 基于规则的 KG 提取器针对典型的财务报告语言进行调优;在其他领域(例如保险、房地产)可能需要进行适配。
  • 知识图谱规模的可扩展性: 超大型报告会生成密集图谱,可能超出提示长度限制;未来工作可以探索层次化摘要或检索增强生成。
  • 错误传播: 初始实体/数字提取的错误会直接影响下游推理;引入置信度评分机制可能缓解此问题。
  • 更广泛的 LLM 集成: 本研究聚焦于 Llama 3.1 8B;使用更新的指令微调或多模态模型评估该框架可能发现额外收益。

作者

  • Aryan Mishra
  • Akash Anil

论文信息

  • arXiv ID: 2601.07754v1
  • 类别: cs.CL
  • 发表时间: 2026年1月12日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »