[Paper] 评估大语言模型中的金融智能:使用 LLM 引擎对 SuperInvesting AI 进行基准测试
发布: (2026年3月10日 GMT+8 01:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.08704v1
概述
本文介绍了 AI Financial Intelligence Benchmark (AFIB),这是一种系统化的方法,用于衡量大型语言模型(LLM)在处理真实世界金融分析任务方面的表现。通过在精心挑选的 95+ 条股票研究问题上测试包括新发布的 SuperInvesting 在内的五款流行的基于 LLM 的 AI 助手,作者揭示了每个系统的优势和盲点,并说明了为何“金融智能”是一个多维度的问题。
关键贡献
- AFIB 基准:一个五维评估套件(事实准确性、分析完整性、数据时效性、模型一致性和失败模式),专为金融聚焦的使用场景量身定制。
- 综合数据集:超过 95 条源自真实股票研究工作流的结构化问题,涵盖收益分析、估值、宏观经济影响等。
- 跨模型比较:对 GPT、Gemini、Perplexity、Claude 以及新推出的 SuperInvesting AI 进行系统的正面对决测试。
- 实证洞察:量化实时检索能力(如 Perplexity)与深度分析推理(如 SuperInvesting)之间的权衡。
- 开源制品:发布基准代码、提示词和评分脚本,以实现可复现性并供社区扩展。
方法论
- 任务设计 – 作者将常见的股票研究活动提炼为 95+ 个问题模板(例如 “使用 FY‑2024 收益计算公司 X 的 DCF 估值”)。每个模板包括所需输入、预期输出格式和参考答案。
- 维度评分
- 事实准确性:数值事实(价格、每股收益等)的二元正确性,按 0‑10 评分。
- 分析完整性:基于评分表的得分(最高 70),覆盖所有子步骤(数据收集、假设、计算、解释)。
- 数据时效性:检查模型是否使用最新的市场数据(例如最新的季度业绩)。
- 模型一致性:同一提示运行三次,衡量答案的方差。
- 失败模式:对幻觉、遗漏或误解进行分类。
- 评估流程 – 通过公共 API 使用相同提示查询每个 LLM。响应自动解析后,由金融专家手动验证并给出评分表分数。
- 聚合 – 将分数归一化并合并为每个模型的整体 AFIB 指数。
结果与发现
| 模型 | 事实准确性 (/10) | 完整性 (/70) | 时效性 (✓/✗) | 一致性 (σ) | 幻觉率 |
|---|---|---|---|---|---|
| SuperInvesting | 8.96 | 56.65 | ✓ (84 % 最新) | 低方差 | 2 % |
| GPT | 7.42 | 48.12 | ✓ (71 %) | 中等 | 7 % |
| Gemini | 7.15 | 45.80 | ✓ (68 %) | 中等 | 8 % |
| Claude | 6.88 | 42.33 | ✗ (55 %) | 较高方差 | 10 % |
| Perplexity (检索增强) | 7.90 | 38.40 | ✓ (96 %) | 中等 | 9 % |
- SuperInvesting 在综合得分上居首,既在事实正确性又在分析深度上表现出色,同时将幻觉保持在最低。
- Perplexity 由于实时网络检索在数据时效性方面表现突出,但其答案常缺乏完整投资论点所需的细致综合。
- 所有模型在多次运行中都表现出一定的不一致性,突显随机输出对高风险金融工作的可靠性构成担忧。
实际意义
- 工具选择: 对于构建 AI 辅助研究平台的开发者,基准测试建议将检索层(用于获取最新市场数据)与以推理为重点的模型(如 SuperInvesting)相结合,以兼顾两者优势。
- 提示工程: 完整性评估标准显示,明确的多步骤提示(例如 “首先收集收益,然后计算倍数,最后给出建议”)能显著提升所有模型的输出质量。
- 风险管理: SuperInvesting 的低幻觉率意味着在自动生成报告时触发监管红旗的概率更低,这对金融科技合规团队是关键考量。
- API 设计: 一致性指标表明,提供确定性的 “temperature=0” 接口或结果缓存可以降低下游流水线的变异性。
- 产品路线图: 公司可以使用 AFIB 作为诊断清单来确定改进优先级——例如,为强推理模型添加实时价格数据源,或提升以检索为中心系统的推理模块。
限制与未来工作
- 领域范围:该基准聚焦于股票研究;其他金融领域(固定收益、衍生品、ESG)仍未进行测试。
- 静态数据集:虽然作者每年刷新一次题目集,但快速的市场 regime 变化可能会使评估迅速过时。
- 人工评分开销:完整性和失败模式的标注仍需专家审查,限制了大规模自动化基准测试。
- 模型访问:结果依赖于使用的特定 API 版本和 temperature 设置;未来工作应探索与版本无关的评估以及开源 LLM 基线。
底线:AFIB 提供了一个实用且可复现的衡量 LLM “金融智商”的标尺,其早期结果已经为开发者提供了关于哪些 AI 引擎已准备好用于生产级投资分析的具体指导。
作者
- Akshay Gulati
- Kanha Singhania
- Tushar Banga
- Parth Arora
- Anshul Verma
- Vaibhav Kumar Singh
- Agyapal Digra
- Jayant Singh Bisht
- Danish Sharma
- Varun Singla
- Shubh Garg
论文信息
- arXiv ID: 2603.08704v1
- 分类: cs.AI
- 发表时间: 2026年3月9日
- PDF: 下载 PDF