[Paper] 모델은 감독에 얼마나 빨리 전념해야 할까? Tsallis Loss Continuum에서 추론 모델 훈련

발행: (2026년 4월 29일 AM 02:52 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.25907v1

개요

이 논문은 출력 수준 피드백(예: “답이 정답과 일치하는가?”)만으로 대규모 추론 모델을 미세 조정할 때 흔히 겪는 문제점을 다룬다. 모델의 초기 성공 확률이 매우 낮을 경우, 기존의 검증 가능한 보상 기반 강화 학습(RLVR)은 실질적으로 너무 오래 “콜드‑스타트” 정체기에 머물 수 있다. 저자들은 Tsallis $q$‑로그를 기반으로 한 손실 함수들의 연속체를 제안한다. 이 손실 함수들은 순수 RLVR과 고전적인 최대우도 학습 사이를 부드럽게 보간하며, 콜드‑스타트 탈출을 크게 가속화하면서도 학습의 안정성을 유지한다.

Key Contributions

  • Tsallis loss continuum: Introduces a family $J_Q$ parameterized by $q\in[0,1]$ that bridges RL‑style exploitation ($q=0$) and density‑estimation ($q=1$).
  • Gradient‑amplification insight: Shows that every loss in the family shares the same gradient direction; the only difference is a per‑example scalar amplification $P_{\theta}^{-q}$ that re‑weights updates.
  • Theoretical escape‑time analysis: Proves that pure RLVR needs $\Omega(1/p_0)$ time to leave a cold start (where $p_0$ is the initial success rate), while the likelihood pole needs only $\Theta(\log(1/p_0))$, and intermediate $q$ values trade off speed vs. noise memorization.
  • Two practical estimators:
    1. Gradient‑Amplified RL (GARL) – samples from the prior, computes the RL gradient, then amplifies it by $P_{\theta}^{-q}$.
    2. Posterior‑Attenuated Fine‑Tuning (PAFT) – importance‑resamples from the posterior and runs a standard supervised fine‑tuning step.
  • Empirical validation: On three multi‑hop QA benchmarks (FinQA, HotPotQA, MuSiQue) GARL with $q=0.75$ eliminates cold‑start stalls where prior methods (e.g., GRPO) fail, and PAFT provides stable training on the more challenging datasets.

방법론

  1. 문제 설정 – 모델은 잠재적인 추론 궤적(중간 단계들의 연쇄)을 생성합니다. 최종 답만 검증할 수 있기 때문에 학습 신호가 희박합니다.
  2. Tsallis 기반 손실 – 저자들은 일반적인 로그우도 $\log p_\theta$를 Tsallis $q$‑로그함수로 대체합니다
    [ \log_q(p_\theta)=\frac{p_\theta^{1-q}-1}{1-q}, ]
    이를 통해 손실을 정의합니다
    [ J_Q(\theta)=\mathbb{E}{\text{data}}\big[-\log_q p\theta(\text{trajectory})\big]. ]
    $q=0$일 때는 RLVR 목표(보상 가중 로그 확률)와 동일해지고, $q=1$일 때는 표준 주변 우도와 동일해집니다.
  3. 그래디언트 분해 – $J_Q$의 그래디언트는 RL 그래디언트에 스칼라 $P_{\theta}^{-q}$를 곱한 형태로 표현될 수 있는데, 여기서 $P_{\theta}$는 관측된 답의 (계산하기 어려운) 주변 확률입니다.
  4. Monte‑Carlo 추정기 – $P_{\theta}$를 정확히 계산할 수 없기 때문에, 저자들은 두 개의 무편향 추정기(오차 $O(q/(M P_{\theta}^{q+1}))$까지)를 도출합니다:
    • GARL은 모델의 사전 분포에서 샘플을 추출하고, 보상을 평가한 뒤, $P_{\theta}^{-q}$를 근사하는 중요도 가중치로 RL 그래디언트를 스케일링합니다.
    • PAFT는 보상을 필터로 사용해 근사 후방 분포에서 샘플을 추출한 뒤, 해당 샘플에 대해 일반적인 지도 학습 미세조정을 수행합니다. 이는 그래디언트를 $P_{\theta}^{q}$만큼 감쇠시키는 효과를 가집니다.
  5. 학습 루프 – 두 추정기 모두 표준 확률적 경사 하강 파이프라인에 삽입됩니다; 동작을 변화시키는 유일한 하이퍼파라미터는 $q$입니다.

결과 및 발견

데이터셋지표 (majority@16)베이스라인 (GRPO)GARL $q=0.75$PAFT $q=0.75$
FinQA62.158.366.5 (best)65.2
HotPotQA33.530.135.2 (unstable)47.9 (+14.4 over GRPO)
MuSiQue28.724.931.0 (high variance)34.5
  • Cold‑start rescue: 초기 성공 확률 $p_0$가 1 % 미만이던 작업에서, $q=0.75$인 GARL은 몇 천 단계 안에 정체 구간을 탈출했지만, 같은 예산 내에서는 GRPO가 이를 벗어나지 못했습니다.
  • Stability trade‑off: $q$ 값을 낮게 잡아(순수 RL에 가깝게) 하면 초기 수렴이 빠르지만 이후에 잡음이 많은 그래디언트 스파이크가 발생했습니다; PAFT의 중요도 재샘플링이 이러한 스파이크를 완화시켜, 더 어려운 HotPotQA와 MuSiQue 벤치마크에서 보다 안정적인 수렴을 보였습니다.
  • Bias‑variance: 실험적으로 GARL은 그래디언트 분산이 낮았지만 작은 편향을 가지고 있었으며, 학습이 진행됨에 따라 이 편향은 사라졌습니다; PAFT는 분산이 더 높았지만 의미적으로 일관된 업데이트를 제공해 디버깅에 유용했습니다.

Practical Implications

  • 추론 LLM의 빠른 파인‑튜닝 – 개발자는 이제 대규모 언어 모델을 새로운 다단계 추론 작업(예: 금융 QA, 과학 논문 종합)으로 훨씬 적은 보상 신호 상호작용만으로도 적응시킬 수 있어, 계산 비용을 크게 절감할 수 있습니다.
  • 콜드‑스타트 완화 – 정답이 드문 새로운 도메인에 모델을 배포할 때 $q\approx0.7$ 로 설정하고 GARL을 사용하면 모델이 멈추는 현상을 방지할 수 있어, 반복적인 제품 롤‑아웃이 가능해집니다.
  • 플러그‑인‑플레이 손실 – Tsallis 손실은 기존 RL‑from‑human‑feedback(RLHF) 손실을 그대로 대체할 수 있는 드롭‑인 방식이며, 설정해야 하는 것은 스칼라 $q$와 추정기(GARL vs. PAFT)뿐입니다.
  • 디버깅 향상 – PAFT의 “posterior‑attenuated” 그래디언트는 감독 파인‑튜닝 업데이트와 가깝게 유지되어, 모델이 특정 예시에서 개선되는 이유나 실패 원인을 추적하기가 더 쉽습니다.
  • 하이브리드 파이프라인 가능성 – 팀은 초기 빠른 진행을 위해 GARL을 사용하고, 모델이 합리적인 성공률에 도달하면 안정적인 파인‑튜닝을 위해 PAFT로 전환할 수 있습니다.

제한 사항 및 향후 연구

  • 다루기 어려운 주변 $P_{\theta}$ – 두 추정량 모두 Monte‑Carlo 근사에 의존한다; 편향 항 $O\big(\frac{q}{M P_{\theta}^{q+1}}\big)$ 은 $P_{\theta}$ 가 매우 작거나 샘플 크기 $M$ 이 제한될 때 무시할 수 없게 된다.
  • 매우 노이즈가 많은 보상에 대한 안정성 – GARL은 여전히 고도로 확률적인 검증 신호를 가진 데이터셋에서 발산할 수 있다; 논문에서는 $q<0.5$ 일 때 가끔 “gradient explosions”(그라디언트 폭발)이 발생한다고 언급한다.
  • 대규모 모델에 대한 확장성 – 실험은 최대 13 B 파라미터 모델에서 수행되었으며, 샘플링 비용이 지배적인 70 B 규모 LLM에서 이 접근법이 어떻게 동작하는지는 아직 미지이다.
  • 자동 $q$ 선택 – 현재 연구에서는 $q$를 수동으로 조정하는 하이퍼파라미터로 다룬다. 향후 연구에서는 관측된 $p_0$ 혹은 그라디언트 분산을 기반으로 $q$를 점진적으로 감소시키는 적응 스케줄을 개발할 수 있다.
  • 보다 넓은 작업군 – 본 연구는 멀티‑홉 QA에 초점을 맞췄으며, Tsallis 연속체를 다른 추론 중심 작업(코드 생성, 정리 증명 등)에 적용하는 것이 흥미로운 다음 단계이다.

저자

  • Chu‑Cheng Lin
  • Eugene Ie

논문 정보

  • arXiv ID: 2604.25907v1
  • 카테고리: cs.LG, cs.AI
  • 출판일: 2026년 4월 28일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 재귀적 다중 에이전트 시스템

재귀적이거나 루프된 언어 모델은 최근 잠재 상태에 걸쳐 동일한 모델 계산을 반복적으로 정제함으로써 새로운 스케일링 축으로 부상했습니다. 이를 통해 모델의 깊이를 ...