[Paper] Long Chain-of-Thought 압축 via Fine-Grained Group Policy Optimization

발행: 2일 전 (2026년 2월 11일 오전 03:15 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.10048v1

개요

대형 언어 모델(LLM)은 “Chain‑of‑Thought”(CoT) 프롬프트에 능숙해졌으며, 모델이 답을 제시하기 전에 단계별 추론 과정을 서술합니다. 이는 어려운 문제에서 정확도를 크게 높이는 경우가 많지만, 생성된 추론이 지나치게 길어져 추론 지연 시간과 토큰 기반 비용이 증가합니다. 이 논문에서는 **Fine‑grained Group policy Optimization (FGO)**라는 강화학습(RL) 기법을 소개합니다. FGO는 성능을 희생하지 않으면서 CoT 시퀀스를 압축하여, LLM 기반 추론을 보다 실무에 적합하도록 만듭니다.

주요 기여

FGO 알고리즘: 토큰 길이와 출력 엔트로피를 기반으로 한 세밀한 가중치를 적용하여 Group Relative Policy Optimization (GRPO)을 확장하고, CoT 단계의 선택적 압축을 가능하게 합니다.
엔트로피 인식 가중치: GRPO에서 발생하는 “엔트로피 붕괴” 문제를 방지하여 모델이 다양하고 유익한 추론 경로를 유지하도록 합니다.
향상된 데이터 효율성: 중간 그룹 응답을 보다 효과적으로 재사용하여 필요한 RL 훈련 데이터 양을 감소시킵니다.
실증적 검증: 수학 중심 벤치마크(MATH500, AIME24, AMC23, Minerva)에서 압축된 CoT가 토큰 사용량을 최대 35 % 줄이면서도 거의 동일한 정확도를 달성함을 보여줍니다.
오픈소스 구현: 기존 LLM 파이프라인에 손쉽게 통합할 수 있도록 코드와 사전 학습된 정책 체크포인트를 제공합니다.

Methodology

그룹 형성 – 추론 중에 모델의 CoT가 그룹으로 나뉘어집니다(예: 각 논리적 하위 단계).
세분화 – 각 그룹은 더 작은 조각들로 추가 분할됩니다. 알고리즘은 각 조각의 길이(짧은 조각일수록 비용이 적음)와 엔트로피(엔트로피가 높을수록 더 많은 정보를 담고 있음)를 평가합니다.
가중치 할당 – 조각들은 간결함과 정보량을 균형 있게 반영하는 가중치를 부여받습니다. 엔트로피가 높고 짧은 조각이 더 높은 우선순위를 가집니다.
정책 최적화 – RL을 사용해 정책이 정확도(정답 도출)와 효율성(토큰 수 감소)을 결합한 보상을 최대화하는 최적의 가중 조합을 선택하도록 학습합니다.
학습 루프 – 이 과정은 일련의 추론 예시 배치를 대상으로 반복되며, Fine‑grained Group Policy Optimization 목표에 따라 정책을 업데이트합니다. 이는 엔트로피 붕괴를 명시적으로 페널티하고 과거 그룹 데이터를 더 잘 재사용하도록 장려하는 GRPO의 정제된 버전입니다.

전체 파이프라인은 최소한의 엔지니어링 오버헤드로 기존 CoT‑지원 LLM 서비스에 바로 적용할 수 있습니다.

결과 및 발견

벤치마크	Baseline CoT (토큰)	FGO‑Compressed CoT (토큰)	정확도 Δ
MATH500	1.42 M	0.93 M (−34 %)	–0.2 %
AIME24	0.78 M	0.52 M (−33 %)	–0.1 %
AMC23	0.64 M	0.44 M (−31 %)	0.0 %
Minerva	1.10 M	0.71 M (−35 %)	–0.3 %

토큰 절감: 모든 데이터셋에서 FGO는 생성 토큰 수를 대략 3분의 1 정도 줄입니다.
성능 유지: 정확도 감소가 미미(≤ 0.3 %)하여 압축된 추론이 핵심 논리 내용을 여전히 담고 있음을 확인했습니다.
안정성: 학습 곡선이 GRPO보다 더 빠르게 수렴하고, 이전에 정책이 퇴화하게 만들던 급격한 엔트로피 감소 현상을 피합니다.

실용적인 함의

추론 비용 감소 – 토큰당 요금을 부과하는 SaaS 제공업체(예: OpenAI, Anthropic)의 경우, 30 % 감소는 특히 튜터링 봇이나 자동 정리 증명기와 같은 무거운 추론 작업에서 API 사용 비용을 직접 낮춥니다.
지연 시간 감소 – 짧은 CoT는 모델 디코더에서의 라운드‑트립 수를 줄여 응답 시간을 단축시켜, 실시간 어시스턴트와 인터랙티브 코딩 도구에 유리합니다.
확장 가능한 추론 서비스 – 기업은 동일한 하드웨어 예산으로 더 많은 동시 사용자를 지원할 수 있어, 대규모 LLM 기반 문제 해결이 가능해집니다.
통합 용이 – FGO가 기본 LLM 위에 적용되는 후처리 정책으로 작동하므로, 개발자는 기존 파이프라인(예: LangChain, LlamaIndex)을 전체 모델을 재학습하지 않고도 손쉽게 개조할 수 있습니다.
다른 분야에 대한 가능성 – 동일한 세밀한 가중치 아이디어를 코드 생성, 데이터‑텍스트 변환, 혹은 법률 문서 초안 작성 등에서 장황한 출력을 압축하는 데 활용할 수 있으며, 여기서 간결함이 중요합니다.

제한 사항 및 향후 작업

도메인 특수성 – 실험은 수학적 추론에 초점을 맞추었으며, 서사적이거나 개방형 작업에 대한 효과는 아직 테스트되지 않음.
RL 오버헤드 – 추론은 비용이 적지만, RL 미세조정 단계는 한 번의 계산 비용을 추가하며, 매우 큰 모델에 대해서는 무시할 수 없을 수 있음.
휴리스틱 가중치 – 현재 길이‑엔트로피 트레이드오프는 수작업으로 설계되었으며, 보다 적응적인 가중치 방식을 학습하면 압축을 더욱 향상시킬 수 있음.
사용자 제어 – 향후 작업에서는 “압축 예산” API를 제공하여 개발자가 목표 토큰 수나 지연 제한을 지정할 수 있게 할 수 있음.

저자들은 FGO를 다중모달 추론(예: 비전‑언어 체인)으로 확장하고, 정책이 점점 더 복잡한 CoT를 압축하는 방법을 점진적으로 학습하는 커리큘럼 방식 훈련을 탐구할 것을 제안한다.

저자

Xinchen Han
Hossam Afifi
Michel Marot
Xilu Wang
Lu Yin

논문 정보

arXiv ID: 2602.10048v1
카테고리: cs.LG, cs.AI
발행일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] Long Chain-of-Thought 압축 via Fine-Grained Group Policy Optimization

개요

주요 기여

Methodology

결과 및 발견

실용적인 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] 시계열 데이터에 대한 Flow-Guided Neural Operator 기반 Self‑Supervised Learning