[Paper] 언제 멈출지 학습: Adaptive Latent Reasoning via Reinforcement Learning

발행: 2개월 전 (2025년 11월 27일 오전 01:54 GMT+9)

6 분 소요

원문: arXiv

Source: arXiv - 2511.21581v1

Overview

논문 “Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning” 은 대형 언어 모델(LLM)이 보다 효율적으로 추론하도록 하는 방법을 제안한다. 모델이 실시간으로 몇 단계의 잠재 추론을 수행할지 스스로 결정하게 함으로써, 답변 품질을 유지하면서도 필요한 계산량을 크게 줄일 수 있다—이는 대규모로 LLM을 서비스하는 모든 사람에게 매력적인 전망이다.

Key Contributions

Adaptive‑length latent reasoning: 충분한 정보가 모이면 추론 체인을 중단하도록 학습하는 강화학습(RL) 컨트롤러를 도입.
Post‑SFT RL fine‑tuning: 표준 지도‑미세조정(SFT) 이후 RL을 적용해 추론 길이와 작업 정확도 사이의 trade‑off를 직접 최적화.
Empirical gains on a 1B Llama 3.2 model: GSM8K‑Aug 벤치마크에서 52 % 감소된 총 추론 토큰 수를 달성했으며 정확도는 전혀 떨어지지 않음.
Open‑source release: 코드, 학습 스크립트, 사전 학습된 가중치를 공개해 재현성과 빠른 도입을 지원.

Methodology

Latent Reasoning Backbone

저자들은 표준 Transformer를 기반으로, 인간이 읽을 수 있는 “chain‑of‑thought” 토큰을 출력하는 대신 내부 잠재 상태를 다음 추론 단계로 전달하도록 설계하였다. 이는 언어 수준 토크나이징의 병목을 제거한다.

RL Controller

경량 정책 네트워크가 현재 잠재 상태를 관찰하고 다음 중 하나를 결정한다:

Continue: 또 다른 잠재 추론 반복을 수행
Stop: 최종 답변을 출력

정책은 두 목표를 균형 있게 반영하는 보상으로 학습된다:

Accuracy reward (정답이 정답과 일치하면 양의 보상)
Efficiency penalty (수행된 잠재 단계 수에 비례)

Training Pipeline

Stage 1: GSM8K‑Aug 데이터셋으로 지도 미세조정(SFT)하여 모델에 기본 문제 해결 능력을 학습시킴.
Stage 2: Post‑SFT RL 미세조정 단계에서 컨트롤러가 가능한 경우 추론을 조기에 종료하도록 학습.

Evaluation

저자들은 벤치마크에서 추론 길이(전체 잠재 토큰 수)와 작업 정확도를 측정하고, 적응형 모델을 고정 길이 베이스라인과 비교하였다.

Results & Findings

Metric	Fixed‑length baseline	Adaptive latent reasoning
Average reasoning length (tokens)	1.84 × baseline	0.88 × baseline (≈ 52 % 감소)
Accuracy (GSM8K‑Aug)	78.3 %	78.4 % (통계적으로 유의미한 차이 없음)
Inference compute (FLOPs)	1.0 × baseline	≈ 0.55 × baseline

What this means: RL 컨트롤러는 “쉬운” 문제에서는 일찍 멈추고, 어려운 문제에서는 충분히 많은 단계를 수행하도록 학습되어, 거의 동일한 정확도를 유지하면서 약 절반 수준의 연산량을 사용한다.

Practical Implications

Cost savings for production LLM services – 잠재 단계 수가 절반으로 줄어들면 GPU 사용량과 응답 시간이 직접 감소하므로 SaaS API와 온‑디바이스 추론에 필수적이다.
Dynamic inference budgets – 개발자는 최대 허용 지연 시간이나 에너지 예산을 설정할 수 있으며, 적응형 컨트롤러가 가능한 경우 추론을 자동으로 단축한다.
Scalable reasoning for edge devices – 이 접근법은 모델에 구애받지 않으며, 더 작고 양자화된 모델에 적용하면 스마트폰이나 IoT 하드웨어에서도 복잡한 추론이 가능해진다.
Simplified pipeline – RL 미세조정이 기존 SFT 이후에 이루어지므로, 이미 파인튜닝된 모델을 처음부터 다시 학습하지 않고도 업그레이드할 수 있다.

Limitations & Future Work

Model size & dataset scope – 실험은 1 B 파라미터 Llama 3.2 모델과 단일 수학‑중심 데이터셋(GSM8K‑Aug)만을 대상으로 했다. 더 큰 모델이나 다양한 작업에서는 결과가 달라질 수 있다.
Reward design sensitivity – 정확도와 효율성 사이의 균형은 하이퍼파라미터에 크게 의존한다; 부적절한 설정은 추론을 과도하게 줄이거나 계산을 낭비하게 만든다.
Interpretability – 잠재 추론 단계는 인간이 읽을 수 없으므로 디버깅이나 감사가 어려워진다.

Future directions 로는 다른 LLM 계열에 적용, 다양한 RL 보상 설계 탐색, 더 깊은 잠재 모듈 등 구조적 변형 테스트, 그리고 추론 능력을 더욱 압축하기 위한 지식 증류 파이프라인 통합 등이 제시된다.

Authors

Alex Ning
Yen-Ling Kuo
Gabe Gomes

Paper Information

arXiv ID: 2511.21581v1
Categories: cs.LG
Published: November 26, 2025
PDF: Download PDF