[Paper] 长序列 LSTM 建模用于 NBA 比赛结果预测，使用新颖的多赛季数据集

发布: 4个月前 (2025年12月9日 GMT+8 21:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08591v1

概览

一项新研究通过在庞大的、跨八个赛季（9,840 场比赛）的序列上训练深度学习模型，解决了长期以来预测 NBA 比赛结果的棘手问题。作者将 2004‑05 至 2024‑25 赛季的数据拼接在一起，展示了长短期记忆网络（LSTM）能够捕捉长期的球队动态，并超越一系列经典机器学习基线。

数据收集与预处理
- 抓取 2004‑05 至 2024‑25 每场常规赛的盒子得分统计、球员阵容、主客场指示和赛季标识。
- 构造滚动胜率、平均得分差、阵容稳定性等特征。
- 对数值字段进行归一化，对类别变量（球队 ID、场馆）使用嵌入进行编码。
序列构建
- 对于每场目标比赛，模型接收前 9,840 场比赛（即截至该时点的全部历史）作为时间顺序张量。
- 通过填充和掩码处理早期赛季中历史不完整的情况。
模型架构
- 嵌入层将球队标识映射为 32 维向量。
- 两层堆叠 LSTM（256 与 128 隐藏单元）处理长序列，保留时间依赖性。
- 全连接头使用 sigmoid 输出二元胜负预测。
- 通过 dropout（0.3）和 L2 权重衰减进行正则化，以抑制深度时间模型的过拟合。
训练与评估
- 使用时间顺序的训练/验证/测试划分（前 15 赛季用于训练，接下来的 2 赛季用于验证，最后 3 赛季用于测试），保证因果关系。
- 采用 Adam 优化器（学习率 = 1e‑4）和二元交叉熵损失。
- 与在相同特征上训练的传统机器学习模型以及将序列视为 2‑D “图像”的 CNN 进行基准比较。

模型	准确率	精确率	AUC‑ROC
Logistic Regression	61.2 %	60.8 %	0.64
Random Forest	64.5 %	65.0 %	0.68
MLP (2‑层)	66.8 %	67.2 %	0.71
CNN (1‑D)	68.9 %	69.4 %	0.73
长序列 LSTM	72.35 %	73.15 %	0.761

教练与分析：前台可以实时输入比赛数据，获得概率化的胜负预测，辅助赛中决策（如轮换阵容、暂停时机）。
博彩与幻想平台：自动生成更高质量的赔率和球员属性预测，提高市场效率和用户参与度。
内容个性化：体育媒体可在赛前叙事中加入“基于八年趋势，X 队的获胜概率为 78 %”，无需人工统计分析。
可迁移管道：相同的长序列 LSTM 框架可适用于其他季节性体育项目（NFL、MLB、欧洲足球），甚至非体育领域的多年概念漂移任务（如股票板块分析、需求预测）。

结论：通过采用真正的长期 NBA 历史视角，本研究表明深度序列模型能够超越传统预测方法，为篮球生态系统中的数据驱动决策打开新局面。