[论文] 扩展 Open-Ended Reasoning 以预测未来

发布: (2026年1月1日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.25070v1

概述

本文解决了一个出乎意料的实用问题:能否训练大型语言模型(LLM)对未来事件进行可靠的、开放式的预测?通过将每日新闻转化为数千个预测问题并训练专用模型(OpenForecaster 8B),作者展示了即使是中等规模的 LLM 也能在真实世界的预测任务中与规模更大的专有系统竞争。该工作弥合了学术预测研究与开发者在高风险决策中所需工具之间的鸿沟。

关键贡献

  • OpenForesight 数据集 – 一个全自动的流水线,将全球新闻文章转换为多样的、开放式预测问题,生成高质量的训练集,无需人工标注。
  • OpenForecaster 8B – 一个在 OpenForesight 上微调的 80 亿参数的大语言模型,具备检索增强推理和强化学习(RL)奖励塑形,以提升预测质量。
  • 防泄漏评估协议 – 使用离线新闻语料库进行训练数据生成和推理时的检索,确保模型不受未来信息污染。
  • 实证结果 – 该 8B 模型在 2025 年 5 月至 8 月的留出预测中,准确率、校准度和一致性匹配或超越了更大规模的商业预测模型。
  • 开源发布 – 代码、模型检查点和 OpenForesight 数据集已公开,可降低 AI 驱动预测领域的研究和产品开发门槛。

方法论

  1. 数据生成

    • 抓取一个大型、静态的每日新闻文章存档(截至某个截止日期)。
    • 对每篇文章应用基于规则的模板,生成 预测问题(例如 “Country X 会在 2025 年第三季度之前采用政策 Y 吗?”)以及从后续文章中提取的 真实答案
    • 使用轻量启发式规则和一个小规模人工验证的验证集,对相关性、多样性和可回答性进行过滤。
  2. 模型架构

    • 基于 Qwen‑3 “thinking” 系列(仅解码器 Transformer)进行起始。
    • 增加一个 检索模块,在推理时获取最相关的过去新闻片段,为模型提供可注意的上下文。
  3. 训练方案

    • 对 OpenForesight 的问答对进行 监督微调
    • 进行 基于人类反馈的强化学习 (RLHF),奖励模型根据 准确性校准(概率与真实频率的吻合程度)和 一致性(跨相关问题的连贯性)对预测进行打分。
    • 使用一个小的留出验证集来调节这些奖励组件的权重。
  4. 评估

    • 进行 未来留出测试:对 2025 年 5 月至 8 月期间实际发生的事件生成预测,该期间在训练中未出现。
    • 与基线大语言模型(包括 GPT‑4‑style 模型)在 Brier score(校准)、精确匹配准确率和成对一致性等指标上进行比较。

结果与发现

指标OpenForecaster 8B更大的专有模型*
准确率(精确匹配)68.2 %69.0 %
Brier分数(越低越好)0.1120.119
一致性(成对)0.840.81
校准误差0.030.05

* 专有基线包括一个 700 亿参数的模型,该模型在类似的预测数据上进行微调。

关键要点

  • 检索提升了准确率(+3 个百分点)和校准度(Brier降低0.02)。
  • 明确惩罚误校准的 RL 奖励产生的模型不仅更常正确,而且在表达不确定性时更可信
  • 校准提升能够迁移到不相关的基准(例如 MMLU 套件中的概率预测任务),表明该训练信号具有广泛的益处。

Practical Implications

  • Decision‑support tools – 公司可以将 OpenForecaster 8B 嵌入仪表盘,展示市场趋势、监管变化或供应链中断的概率预测,从而实现风险感知的规划。
  • Cost‑effective forecasting – 8 B 模型可以在单个 GPU 上轻松运行,性能可与数百亿参数的服务相媲美,大幅降低初创公司和研究实验室的推理成本。
  • Retrieval‑augmented pipelines – 论文中的检索加 LLM 模式可以重新用于任何需要最新文本证据(例如财务报表、科学预印本)来指导预测的领域。
  • Improved AI safety – 更好校准的模型降低了过度自信,这是在自动系统或政策咨询等高风险 AI 应用中的已知失效模式。

限制与未来工作

  • Scope of questions – 自动化流水线侧重于可在新闻档案中验证的事件;细分或长尾领域(例如,专业科学突破)仍然代表性不足。
  • Temporal granularity – 预测仅限于粗粒度的时间窗口(月份/季度)。更细粒度的预测(天或小时)需要更丰富的时间建模。
  • Retrieval latency – 虽然检索提升了性能,但它会增加一次额外的查找步骤,可能成为延迟关键场景的瓶颈。
  • Future directions suggested by the authors include: 扩展数据集至多语言新闻来源,将结构化数据(例如,经济指标)与文本结合,并探索直接针对概率推理的自监督预训练目标。

All code, model checkpoints, and the OpenForesight dataset are released under an open‑source license, inviting the community to build on these results and bring AI‑powered forecasting into everyday developer workflows.

作者

  • Nikhil Chandak
  • Shashwat Goel
  • Ameya Prabhu
  • Moritz Hardt
  • Jonas Geiping

论文信息

  • arXiv ID: 2512.25070v1
  • 分类: cs.LG, cs.CL
  • 出版时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »