[Paper] Open-Ended Reasoning 스케일링을 통한 미래 예측

발행: (2026년 1월 1일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.25070v1

Overview

이 논문은 놀라울 정도로 실용적인 문제에 도전합니다: 대형 언어 모델(LLM)을 훈련시켜 미래 사건에 대한 신뢰할 수 있는 개방형 예측을 할 수 있을까요? 일일 뉴스 기사를 수천 개의 예측 질문으로 변환하고 특화된 모델(OpenForecaster 8B)을 훈련시킴으로써, 저자들은 비교적 작은 규모의 LLM이 실제 예측 과제에서 훨씬 더 큰 독점 시스템과 경쟁할 수 있음을 보여줍니다. 이 연구는 학술적 예측 연구와 고위험 의사결정을 위한 개발자 도구 사이의 격차를 메워줍니다.

주요 기여

  • OpenForesight 데이터셋 – 전 세계 뉴스 기사를 다양한 개방형 예측 질문으로 변환하는 완전 자동화 파이프라인으로, 수동 라벨링 없이 고품질 학습 세트를 생성합니다.
  • OpenForecaster 8B – OpenForesight에 파인튜닝된 80억 파라미터 LLM으로, 검색 강화 추론 및 강화 학습(RL) 보상 형태 조정을 통해 예측 품질을 향상시킵니다.
  • Leak‑proof 평가 프로토콜 – 학습 데이터 생성과 추론 시 검색 모두에 오프라인 뉴스 코퍼스를 사용하여 미래 정보가 모델에 오염되지 않도록 보장합니다.
  • 실증 결과 – 8B 모델은 2025년 5월~8월에 보류된 예측에서 훨씬 큰 상업용 예측기보다 정확도, 보정 및 일관성이 동등하거나 뛰어납니다.
  • 오픈소스 공개 – 코드, 모델 체크포인트 및 OpenForesight 데이터셋이 공개되어 AI 기반 예측 연구 및 제품 개발 장벽을 낮춥니다.

방법론

  1. 데이터 생성

    • 대규모 정적 일일 뉴스 기사 아카이브(컷오프 날짜까지)를 스크래핑합니다.
    • 각 기사에 규칙 기반 템플릿을 적용하여 예측 질문 (예: “Country X가 2025년 3분기까지 정책 Y를 채택할까요?”)과 이후 기사에서 추출한 실제 정답을 생성합니다.
    • 경량 휴리스틱과 소규모 인간 검증 검증 세트를 사용하여 관련성, 다양성 및 답변 가능성을 필터링합니다.
  2. 모델 아키텍처

    • Qwen‑3 “thinking” 계열(디코더 전용 트랜스포머)에서 시작합니다.
    • 추론 시 가장 관련성 높은 과거 뉴스 스니펫을 가져와 모델이 주의를 기울일 수 있는 컨텍스트를 제공하는 검색 모듈을 추가합니다.
  3. 학습 절차

    • OpenForesight 질문‑답변 쌍에 대해 지도 학습 미세조정을 수행합니다.
    • **인간 피드백 기반 강화 학습 (RLHF)**에서는 보상 모델이 예측을 정확도, 보정 (확률이 실제 빈도를 얼마나 잘 반영하는지), 일관성 (관련 질문 간의 일관성)으로 평가합니다.
    • 소규모 보류 검증 세트를 사용하여 이러한 보상 요소들의 가중치를 조정합니다.
  4. 평가

    • 미래 보류 테스트를 수행합니다: 훈련 중 보지 못한 기간인 2025년 5월에서 8월 사이에 실제로 발생한 사건에 대한 예측을 생성합니다.
    • Brier score(보정), 정확도(정확히 일치), 쌍별 일관성 등 지표를 사용해 기본 LLM(예: GPT‑4 스타일 모델)과 비교합니다.

결과 및 발견

지표OpenForecaster 8BLarger Proprietary Model*
정확도 (정확히 일치)68.2 %69.0 %
브라이어 점수 (낮을수록 좋음)0.1120.119
일관성 (쌍별)0.840.81
보정 오류0.030.05

* 독점 베이스라인에는 유사한 예측 데이터에 대해 미세 조정된 700억 파라미터 모델이 포함됩니다.

핵심 요약

  • 검색(Retrieval) 기능은 정확도(+3 pp)와 보정(+0.02 브라이어 감소) 모두를 향상시킵니다.
  • 잘못된 보정을 명시적으로 벌점으로 부과하는 RL 보상은 모델이 더 자주 정답을 맞출 뿐만 아니라, 불확실성을 표현할 때도 신뢰할 수 있게 만듭니다.
  • 보정 향상은 (예: MMLU 스위트의 확률 예측 과제와 같은) 관련 없는 벤치마크에도 전이되어, 학습 신호가 전반적으로 유익함을 시사합니다.

Practical Implications

  • Decision‑support tools – 기업은 OpenForecaster 8B를 대시보드에 통합하여 시장 동향, 규제 변화, 공급망 중단 등에 대한 확률적 예측을 제공함으로써 위험을 인식한 계획을 가능하게 할 수 있습니다.
  • Cost‑effective forecasting – 8 B 모델은 단일 GPU에서도 원활히 실행되며, 수백 억 파라미터 규모 서비스와 견줄 만한 성능을 제공해 스타트업 및 연구실의 추론 비용을 크게 낮춥니다.
  • Retrieval‑augmented pipelines – 논문의 Retrieval‑plus‑LLM 패턴은 최신 텍스트 증거(예: 재무 보고서, 과학 프리프린트)가 예측에 반영되어야 하는 모든 분야에 재활용될 수 있습니다.
  • Improved AI safety – 보다 잘 보정된 모델은 과도한 자신감을 줄여, 자율 시스템이나 정책 자문과 같은 고위험 AI 응용 분야에서 알려진 실패 모드를 완화합니다.

제한 사항 및 향후 작업

  • 질문의 범위 – 자동 파이프라인은 뉴스 아카이브에서 검증 가능한 이벤트에 초점을 맞추며, 틈새 또는 롱테일 도메인(예: 특수 과학적 돌파구)은 여전히 충분히 다루어지지 않습니다.
  • 시간적 세분성 – 예측은 대략적인 시간 창(개월/분기)으로 제한됩니다. 더 세밀한 예측(일 또는 시간)은 보다 풍부한 시간 모델링이 필요합니다.
  • 검색 지연 – 검색이 성능을 향상시키지만, 추가 조회 단계가 지연에 민감한 환경에서 병목이 될 수 있습니다.
  • 향후 방향은 저자들이 제안한 바와 같이 데이터셋을 다국어 뉴스 소스로 확장하고, 텍스트와 함께 구조화된 데이터(예: 경제 지표)를 통합하며, 확률적 추론을 직접 목표로 하는 자체 지도 사전 학습 목표를 탐구하는 것을 포함합니다.

모든 코드, 모델 체크포인트 및 OpenForesight 데이터셋은 오픈소스 라이선스로 공개되어 커뮤니티가 이 결과를 기반으로 구축하고 AI 기반 예측을 일상적인 개발자 워크플로우에 도입하도록 초대합니다.

저자

  • Nikhil Chandak
  • Shashwat Goel
  • Ameya Prabhu
  • Moritz Hardt
  • Jonas Geiping

논문 정보

  • arXiv ID: 2512.25070v1
  • 분류: cs.LG, cs.CL
  • 발표일: 2025년 12월 31일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 사고의 연속으로서의 모델링 언어

Transformer 언어 모델은 언어를 토큰의 시퀀스로 모델링함으로써 놀라울 정도로 자연스러운 텍스트를 생성할 수 있습니다. 그러나 주로 표면 수준의 동시 발생 통계에 의존함으로써…