[Paper] 评估大语言模型中的金融智能:使用 LLM 引擎对 SuperInvesting AI 进行基准测试

发布: (2026年3月10日 GMT+8 01:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.08704v1

概述

本文介绍了 AI Financial Intelligence Benchmark (AFIB),这是一种系统化的方法,用于衡量大型语言模型(LLM)在处理真实世界金融分析任务方面的表现。通过在精心挑选的 95+ 条股票研究问题上测试包括新发布的 SuperInvesting 在内的五款流行的基于 LLM 的 AI 助手,作者揭示了每个系统的优势和盲点,并说明了为何“金融智能”是一个多维度的问题。

关键贡献

  • AFIB 基准:一个五维评估套件(事实准确性、分析完整性、数据时效性、模型一致性和失败模式),专为金融聚焦的使用场景量身定制。
  • 综合数据集:超过 95 条源自真实股票研究工作流的结构化问题,涵盖收益分析、估值、宏观经济影响等。
  • 跨模型比较:对 GPT、Gemini、Perplexity、Claude 以及新推出的 SuperInvesting AI 进行系统的正面对决测试。
  • 实证洞察:量化实时检索能力(如 Perplexity)与深度分析推理(如 SuperInvesting)之间的权衡。
  • 开源制品:发布基准代码、提示词和评分脚本,以实现可复现性并供社区扩展。

方法论

  1. 任务设计 – 作者将常见的股票研究活动提炼为 95+ 个问题模板(例如 “使用 FY‑2024 收益计算公司 X 的 DCF 估值”)。每个模板包括所需输入、预期输出格式和参考答案。
  2. 维度评分
    • 事实准确性:数值事实(价格、每股收益等)的二元正确性,按 0‑10 评分。
    • 分析完整性:基于评分表的得分(最高 70),覆盖所有子步骤(数据收集、假设、计算、解释)。
    • 数据时效性:检查模型是否使用最新的市场数据(例如最新的季度业绩)。
    • 模型一致性:同一提示运行三次,衡量答案的方差。
    • 失败模式:对幻觉、遗漏或误解进行分类。
  3. 评估流程 – 通过公共 API 使用相同提示查询每个 LLM。响应自动解析后,由金融专家手动验证并给出评分表分数。
  4. 聚合 – 将分数归一化并合并为每个模型的整体 AFIB 指数。

结果与发现

模型事实准确性 (/10)完整性 (/70)时效性 (✓/✗)一致性 (σ)幻觉率
SuperInvesting8.9656.65✓ (84 % 最新)低方差2 %
GPT7.4248.12✓ (71 %)中等7 %
Gemini7.1545.80✓ (68 %)中等8 %
Claude6.8842.33✗ (55 %)较高方差10 %
Perplexity (检索增强)7.9038.40✓ (96 %)中等9 %
  • SuperInvesting 在综合得分上居首,既在事实正确性又在分析深度上表现出色,同时将幻觉保持在最低。
  • Perplexity 由于实时网络检索在数据时效性方面表现突出,但其答案常缺乏完整投资论点所需的细致综合。
  • 所有模型在多次运行中都表现出一定的不一致性,突显随机输出对高风险金融工作的可靠性构成担忧。

实际意义

  • 工具选择: 对于构建 AI 辅助研究平台的开发者,基准测试建议将检索层(用于获取最新市场数据)与以推理为重点的模型(如 SuperInvesting)相结合,以兼顾两者优势。
  • 提示工程: 完整性评估标准显示,明确的多步骤提示(例如 “首先收集收益,然后计算倍数,最后给出建议”)能显著提升所有模型的输出质量。
  • 风险管理: SuperInvesting 的低幻觉率意味着在自动生成报告时触发监管红旗的概率更低,这对金融科技合规团队是关键考量。
  • API 设计: 一致性指标表明,提供确定性的 “temperature=0” 接口或结果缓存可以降低下游流水线的变异性。
  • 产品路线图: 公司可以使用 AFIB 作为诊断清单来确定改进优先级——例如,为强推理模型添加实时价格数据源,或提升以检索为中心系统的推理模块。

限制与未来工作

  • 领域范围:该基准聚焦于股票研究;其他金融领域(固定收益、衍生品、ESG)仍未进行测试。
  • 静态数据集:虽然作者每年刷新一次题目集,但快速的市场 regime 变化可能会使评估迅速过时。
  • 人工评分开销:完整性和失败模式的标注仍需专家审查,限制了大规模自动化基准测试。
  • 模型访问:结果依赖于使用的特定 API 版本和 temperature 设置;未来工作应探索与版本无关的评估以及开源 LLM 基线。

底线:AFIB 提供了一个实用且可复现的衡量 LLM “金融智商”的标尺,其早期结果已经为开发者提供了关于哪些 AI 引擎已准备好用于生产级投资分析的具体指导。

作者

  • Akshay Gulati
  • Kanha Singhania
  • Tushar Banga
  • Parth Arora
  • Anshul Verma
  • Vaibhav Kumar Singh
  • Agyapal Digra
  • Jayant Singh Bisht
  • Danish Sharma
  • Varun Singla
  • Shubh Garg

论文信息

  • arXiv ID: 2603.08704v1
  • 分类: cs.AI
  • 发表时间: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »