[Paper] 评估大语言模型中的金融智能：使用 LLM 引擎对 SuperInvesting AI 进行基准测试

发布: 1天前 (2026年3月10日 GMT+8 01:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08704v1

概述

本文介绍了 AI Financial Intelligence Benchmark (AFIB)，这是一种系统化的方法，用于衡量大型语言模型（LLM）在处理真实世界金融分析任务方面的表现。通过在精心挑选的 95+ 条股票研究问题上测试包括新发布的 SuperInvesting 在内的五款流行的基于 LLM 的 AI 助手，作者揭示了每个系统的优势和盲点，并说明了为何“金融智能”是一个多维度的问题。

关键贡献

AFIB 基准：一个五维评估套件（事实准确性、分析完整性、数据时效性、模型一致性和失败模式），专为金融聚焦的使用场景量身定制。
综合数据集：超过 95 条源自真实股票研究工作流的结构化问题，涵盖收益分析、估值、宏观经济影响等。
跨模型比较：对 GPT、Gemini、Perplexity、Claude 以及新推出的 SuperInvesting AI 进行系统的正面对决测试。
实证洞察：量化实时检索能力（如 Perplexity）与深度分析推理（如 SuperInvesting）之间的权衡。
开源制品：发布基准代码、提示词和评分脚本，以实现可复现性并供社区扩展。

方法论

任务设计 – 作者将常见的股票研究活动提炼为 95+ 个问题模板（例如 “使用 FY‑2024 收益计算公司 X 的 DCF 估值”）。每个模板包括所需输入、预期输出格式和参考答案。
维度评分
- 事实准确性：数值事实（价格、每股收益等）的二元正确性，按 0‑10 评分。
- 分析完整性：基于评分表的得分（最高 70），覆盖所有子步骤（数据收集、假设、计算、解释）。
- 数据时效性：检查模型是否使用最新的市场数据（例如最新的季度业绩）。
- 模型一致性：同一提示运行三次，衡量答案的方差。
- 失败模式：对幻觉、遗漏或误解进行分类。
评估流程 – 通过公共 API 使用相同提示查询每个 LLM。响应自动解析后，由金融专家手动验证并给出评分表分数。
聚合 – 将分数归一化并合并为每个模型的整体 AFIB 指数。

结果与发现

模型	事实准确性 (/10)	完整性 (/70)	时效性 (✓/✗)	一致性 (σ)	幻觉率
SuperInvesting	8.96	56.65	✓ (84 % 最新)	低方差	2 %
GPT	7.42	48.12	✓ (71 %)	中等	7 %
Gemini	7.15	45.80	✓ (68 %)	中等	8 %
Claude	6.88	42.33	✗ (55 %)	较高方差	10 %
Perplexity (检索增强)	7.90	38.40	✓ (96 %)	中等	9 %

SuperInvesting 在综合得分上居首，既在事实正确性又在分析深度上表现出色，同时将幻觉保持在最低。
Perplexity 由于实时网络检索在数据时效性方面表现突出，但其答案常缺乏完整投资论点所需的细致综合。
所有模型在多次运行中都表现出一定的不一致性，突显随机输出对高风险金融工作的可靠性构成担忧。

实际意义

工具选择: 对于构建 AI 辅助研究平台的开发者，基准测试建议将检索层（用于获取最新市场数据）与以推理为重点的模型（如 SuperInvesting）相结合，以兼顾两者优势。
提示工程: 完整性评估标准显示，明确的多步骤提示（例如 “首先收集收益，然后计算倍数，最后给出建议”）能显著提升所有模型的输出质量。
风险管理: SuperInvesting 的低幻觉率意味着在自动生成报告时触发监管红旗的概率更低，这对金融科技合规团队是关键考量。
API 设计: 一致性指标表明，提供确定性的 “temperature=0” 接口或结果缓存可以降低下游流水线的变异性。
产品路线图: 公司可以使用 AFIB 作为诊断清单来确定改进优先级——例如，为强推理模型添加实时价格数据源，或提升以检索为中心系统的推理模块。

限制与未来工作

领域范围：该基准聚焦于股票研究；其他金融领域（固定收益、衍生品、ESG）仍未进行测试。
静态数据集：虽然作者每年刷新一次题目集，但快速的市场 regime 变化可能会使评估迅速过时。
人工评分开销：完整性和失败模式的标注仍需专家审查，限制了大规模自动化基准测试。
模型访问：结果依赖于使用的特定 API 版本和 temperature 设置；未来工作应探索与版本无关的评估以及开源 LLM 基线。

底线：AFIB 提供了一个实用且可复现的衡量 LLM “金融智商”的标尺，其早期结果已经为开发者提供了关于哪些 AI 引擎已准备好用于生产级投资分析的具体指导。

作者

Akshay Gulati
Kanha Singhania
Tushar Banga
Parth Arora
Anshul Verma
Vaibhav Kumar Singh
Agyapal Digra
Jayant Singh Bisht
Danish Sharma
Varun Singla
Shubh Garg

论文信息

arXiv ID: 2603.08704v1
分类: cs.AI
发表时间: 2026年3月9日
PDF: 下载 PDF

[Paper] 评估大语言模型中的金融智能：使用 LLM 引擎对 SuperInvesting AI 进行基准测试

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于表征学习的任务感知调制用于陆地碳通量的上尺度

[Paper] 理解基于 Large Language Model 驱动的指南在让 Virtual Reality 对盲人和低视力人士可及方面的使用

[Paper] 说谎前先思考：推理如何提升诚实

[Paper] 面向 Python 的 Neural Debugger