[Paper] 장기 시퀀스 LSTM 모델링을 이용한 NBA 경기 결과 예측: 새로운 다시즌 데이터셋

발행: (2025년 12월 9일 오후 10:32 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.08591v1

Overview

새로운 연구에서는 거대한 8시즌(9,840경기) 시퀀스에 대해 딥러닝 모델을 학습시켜 NBA 경기 결과 예측이라는 난제에 도전합니다. 2004‑05 시즌부터 2024‑25 시즌까지의 데이터를 이어붙여, Long Short‑Term Memory (LSTM) 네트워크가 장기적인 팀 역학을 포착하고 기존 머신러닝 베이스라인들을 능가할 수 있음을 보여줍니다.

Key Contributions

  • 다시 시즌 데이터셋: 20년(≈ 9,840경기)에 걸친 종단 NBA 데이터셋을 경기 수준 통계, 팀 로스터, 컨텍스트 특징과 함께 정제했습니다.
  • 장기 시퀀스 LSTM 아키텍처: 8전체 시즌을 포괄하는 시퀀스를 입력받는 LSTM을 설계해 시즌 간 트렌드와 개념 드리프트를 학습하도록 했습니다.
  • 포괄적 벤치마크: 동일한 데이터 분할을 사용해 로지스틱 회귀, 랜덤 포레스트, MLP, 그리고 CNN 기반 접근법과 비교 평가했습니다.
  • 최신 성능: 정확도 72.35 %, 정밀도 73.15 %, AUC‑ROC 0.761을 달성했으며, 모든 베이스라인보다 크게 앞섰습니다.
  • 오픈소스 공개: 재현성과 추가 연구를 촉진하기 위해 코드와 전처리된 데이터를 (NBA 라이선스 조건 하에) 제공했습니다.

Methodology

  1. 데이터 수집 및 전처리

    • 2004‑05 시즌부터 2024‑25 시즌까지 모든 정규 시즌 경기의 박스스코어 통계, 선수 라인업, 홈/어웨이 표시, 시즌 식별자를 스크래핑했습니다.
    • 롤링 승률, 평균 득점 차, 로스터 안정성 지표와 같은 특징을 엔지니어링했습니다.
    • 수치형 필드를 정규화하고 팀 ID, 경기장 등 범주형 변수를 임베딩으로 인코딩했습니다.
  2. 시퀀스 구성

    • 각 목표 경기마다 모델은 이전 9,840경기(즉, 해당 시점까지의 전체 히스토리)를 시간 순서대로 정렬된 텐서로 입력받습니다.
    • 초기 시즌 경기에서는 전체 히스토리가 없으므로 패딩과 마스킹을 사용해 처리했습니다.
  3. 모델 아키텍처

    • 팀 식별자를 위한 임베딩 레이어 → 32‑차원 벡터.
    • 긴 시퀀스를 처리하는 두 개의 스택된 LSTM 레이어(256 및 128 hidden units)로 시간적 의존성을 보존합니다.
    • 이진 승/패 예측을 위한 시그모이드 출력이 있는 완전 연결 헤드.
    • 드롭아웃(0.3)과 L2 가중치 감쇠를 통한 정규화로 깊은 시계열 모델의 과적합을 억제했습니다.
  4. 학습 및 평가

    • 시간적 인과성을 유지하기 위해 연대순 train/validation/test 분할을 사용했습니다(첫 15시즌을 학습, 다음 2시즌을 검증, 마지막 3시즌을 테스트).
    • Adam(lr = 1e‑4)과 binary cross‑entropy 손실로 최적화했습니다.
    • 동일한 엔지니어링 특징을 사용한 전통적인 ML 모델들과, 시퀀스를 2‑D “이미지”로 취급한 CNN과 비교 벤치마크를 수행했습니다.

Results & Findings

ModelAccuracyPrecisionAUC‑ROC
Logistic Regression61.2 %60.8 %0.64
Random Forest64.5 %65.0 %0.68
MLP (2‑layer)66.8 %67.2 %0.71
CNN (1‑D)68.9 %69.4 %0.73
Long‑Sequence LSTM72.35 %73.15 %0.761
  • 장기 컨텍스트의 중요성: 입력 윈도우를 단일 시즌에서 8시즌으로 확대할수록 정확도가 꾸준히 상승했으며, 이는 팀 성과가 서서히 변화하고 과거 컨텍스트에서 이득을 본다는 것을 확인시켜 줍니다.
  • 개념 드리프트 처리: LSTM의 hidden state가 로스터 변동, 코치 교체, 규칙 변경 등에 자연스럽게 적응해 정적 모델이 겪는 성능 저하를 감소시켰습니다.
  • 견고성: 테스트 시즌 간 변동성이 LSTM에서 더 낮게 나타났으며, 이는 잠금 연도나 팬데믹으로 축소된 일정 등 역사적 규범에서 벗어나는 시즌에서도 예측이 더 안정적임을 의미합니다.

Practical Implications

  • 코칭 및 분석: 프런트 오피스는 모델에 실시간 경기 데이터를 입력해 확률적 승리 예측을 얻을 수 있으며, 라인업 교체나 타임아웃 타이밍 등 경기 중 의사결정에 활용할 수 있습니다.
  • 베팅 및 판타지 플랫폼: 고품질의 배당률 및 선수 프로프 예측을 자동으로 생성해 시장 효율성과 사용자 참여를 향상시킬 수 있습니다.
  • 콘텐츠 개인화: 스포츠 미디어는 “팀 X는 8년 트렌드에 기반해 78 % 승률을 보이고 있습니다”와 같은 사전 경기 내러티브를 자동으로 제공해 수작업 통계 분석 없이 맞춤형 스토리를 전달할 수 있습니다.
  • 전이 가능한 파이프라인: 동일한 장기 시퀀스 LSTM 프레임워크를 시즌 구조를 가진 다른 스포츠(NFL, MLB, 유럽 축구) 혹은 개념 드리프트가 수년에 걸쳐 발생하는 비스포츠 영역(주식 시장 섹터 분석, 수요 예측)에도 적용할 수 있습니다.

Limitations & Future Work

  • 데이터 라이선스: 데이터셋이 NBA 제공 통계에 의존하므로 배포에 제한이 있을 수 있어 오픈소스 재현성이 제한됩니다.
  • 계산 비용: 9,840‑스텝 시퀀스 학습은 GPU 메모리를 크게 요구하며, 실시간 추론을 위해서는 시퀀스 절단이나 모델 증류가 필요할 수 있습니다.
  • 특징 범위: 본 연구는 박스스코어 통계에 초점을 맞췄으며, 고급 메트릭(플레이어 트래킹, 부상 보고서, 베팅 라인) 도입 시 정확도가 더욱 향상될 가능성이 있습니다.
  • 설명 가능성: LSTM은 불투명하므로, 향후 연구에서는 어텐션 메커니즘이나 SHAP‑style 분석을 통해 가장 영향력 있는 시간적 요인을 밝혀야 합니다.
  • 크로스‑리그 일반화: 다른 농구 리그(EuroLeague, CBA)에서 모델을 테스트하면 적응성을 검증하고 리그별 특성을 파악할 수 있습니다.

핵심 요약: NBA 역사를 장기적으로 바라봄으로써, 이 연구는 딥 시퀀셜 모델이 전통적인 예측기보다 뛰어나며, 농구 생태계 전반에 걸친 데이터 기반 의사결정을 위한 새로운 가능성을 열어줍니다.

Authors

  • Charles Rios
  • Longzhen Han
  • Almas Baimagambetov
  • Nikolaos Polatidis

Paper Information

  • arXiv ID: 2512.08591v1
  • Categories: cs.LG, cs.NE
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »