[Paper] 언어 모델을 위한 On-Policy Context Distillation

발행: 3일 전 (2026년 2월 13일 오전 03:58 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2602.12275v1

개요

이 논문은 On‑Policy Context Distillation (OPCD) 를 소개한다. 이는 언어 모델이 일반적으로 프롬프트에서만 보는 유용한 지식을 “기억”하도록 가르치는 새로운 방법이다. 모델이 자체 생성 출력으로부터 학습하도록 하면서, 더 풍부한 컨텍스트에 접근할 수 있는 교사의 지도를 받게 함으로써, OPCD는 규모가 작거나 훈련이 덜 된 모델도 사실적 지식과 절차적 노하우를 내부화하게 하면서도 새로운 입력을 처리하는 능력을 희생하지 않는다.

Key Contributions

On‑Policy Distillation for LMs – 고전적인 온‑폴리시 강화학습 증류 아이디어를 컨텍스트 기반 교육과 결합하여, 정적 데이터셋이 아니라 학생이 자신의 궤적에서 학습하도록 합니다.
Reverse KL Objective – 역 Kullback‑Leibler 손실을 사용해 학생의 분포를 컨텍스트 조건화된 교사와 정렬시켜, 학생이 교사의 “사고 과정”을 채택하도록 장려합니다.
Experiential Knowledge Distillation – 모델이 자체 과거 해결 과정(예: 이전 수학 단계, 게임 움직임)에서 재사용 가능한 지식을 추출하고 통합할 수 있음을 보여줍니다.
System Prompt Distillation – 최적화된 프롬프트(종종 수작업으로 만들거나 프롬프트 엔지니어링을 통해 발견)를 모델 가중치에 내장할 수 있음을 입증하여, 추론 시 외부 프롬프트가 필요 없게 합니다.
Cross‑Size Distillation – 작은 학생 모델이 훨씬 큰 교사 모델로부터 경험적 지식을 물려받을 수 있음을 검증하여, 효율적인 모델 배포를 가능하게 합니다.
Broad Empirical Coverage – 수학적 추론, 텍스트 기반 게임, 도메인 특화 작업 전반에 걸친 벤치마크에서 일관되게 강력한 베이스라인을 능가하면서도 OOD(분포 외) 성능을 유지합니다.

Methodology

Teacher & Student Setup – 교사 모델은 전체 컨텍스트(예: 프롬프트와 외부 지식)를 받아 다음 토큰에 대한 확률 분포를 생성합니다. 학생 모델은 프롬프트만 보고(추가 컨텍스트 없이) 작동합니다.
On‑Policy Trajectory Generation – 학생은 학습 데이터에서 자신의 출력 시퀀스(“정책”)를 샘플링합니다. 이 자체 생성된 궤적이 학습 예제가 됩니다.
Reverse KL Distillation – 학생이 생성한 각 토큰에 대해 손실은 역 KL 발산 KL(teacher || student)입니다. 이는 교사가 가능하다고 판단한 토큰에 대한 확률 질량을 학생이 늘리도록 하여, 누락된 컨텍스트 상황에서 교사의 추론을 모방하도록 가르칩니다.
Iterative Refinement – 이 과정이 반복됩니다: 학생이 개선되고 더 나은 궤적을 생성하면, 교사(고정되거나 천천히 업데이트됨)는 계속해서 컨텍스트 지침을 제공합니다.
Applications –
- Experiential Knowledge: 교사는 자신의 과거 해결 과정(trace)에 접근할 수 있는 모델 버전이며, 학생은 그 트레이스를 파라미터에 내재하도록 학습합니다.
- System Prompt: 교사는 바람직한 행동을 이끌어내는 설계된 프롬프트로 구동되며, 학생은 프롬프트 없이도 그 행동을 재현하도록 학습합니다.

전체 파이프라인은 가볍습니다: 교사와 학생에 대한 순전파만 필요하고 외부 보상 모델이 필요 없으며, 일반 GPU 클러스터에서 실행할 수 있습니다.

결과 및 발견

작업	베이스라인 (예: 표준 파인튜닝)	OPCD	정확도 Δ	OOD 유지
수학 추론 (MATH)	71.2%	78.5%	+7.3 포인트	드롭 없음 (≈71% vs 71.2%)
텍스트 기반 게임 (Jericho)	62.4%	68.9%	+6.5 포인트	약간 개선
도메인 특화 QA (법률)	68.0%	74.3%	+6.3 포인트	68% 베이스라인 대비 66% 유지

크로스‑사이즈 증류: 13B 교사 모델에서 증류된 1.3B 학생 모델은 수학 벤치마크에서 교사 성능의 75%를 달성했으며, 일반 1.3B 모델은 62%에 머물렀다.
프롬프트‑프리 추론: 시스템 프롬프트 증류 후, 학생 모델은 런타임에 프롬프트 없이도 교사의 프롬프트 강화 성능과 일치했으며, 추론 지연 시간을 약 30% 감소시켰다.
OOD 견고성: 공격적인 파인튜닝과 달리, OPCD는 모델이 관련 없는 질의에 답할 수 있는 능력을 유지했으며, 증류된 지식이 기존 능력을 덮어쓰지 않고 통합됨을 확인했다.

Practical Implications

Smaller Deployments: 소형 배포: 기업은 여전히 더 크고 비용이 많이 드는 시스템의 “경험”을 담은 컴팩트한 모델을 제공할 수 있습니다—엣지 디바이스, 모바일 앱, 혹은 비용에 민감한 SaaS에 유용합니다.
Prompt‑Engineering Savings: 프롬프트 엔지니어링 비용 절감: 고성능 프롬프트가 발견되면(대개 비용이 많이 드는 RLHF나 수동 튜닝을 통해), OPCD는 그 행동을 모델에 내재시켜 실행 시 프롬프트 처리를 없애고 지연 시간을 줄입니다.
Continuous Learning Pipelines: 지속 학습 파이프라인: 팀은 프로덕션 모델이 자체 솔루션 트레이스(예: 버그 수정 제안, 코드 완성)를 기록하도록 하고, 주기적으로 OPCD를 실행해 성공적인 패턴을 내재화함으로써 외부 데이터 정제 없이도 자체 개선 루프를 만들 수 있습니다.
Domain Adaptation: 도메인 적응: 규제 산업(금융, 헬스케어, 법률)에서는 OPCD가 기본 모델의 일반 언어 능력을 유지하면서도 독점 지식 베이스를 모델에 삽입하는 방법을 제공합니다.
Simplified Inference Stack: 단순화된 추론 스택: 외부 컨텍스트(프롬프트, 검색 모듈)의 필요성을 없애면서 OPCD는 추론 아키텍처를 간소화하여 확장성과 모니터링을 용이하게 합니다.

제한 사항 및 향후 작업

교사 의존성: 증류된 지식의 품질은 교사의 컨텍스트 처리 능력에 좌우됩니다; 설계가 부실한 프롬프트나 잡음이 섞인 과거 추적은 오류를 전파할 수 있습니다.
계산 오버헤드: 대규모 데이터셋에 대해 온‑폴리시 트래젝터리를 생성하는 비용이 많이 들 수 있지만, 전체 RLHF 파이프라인보다 여전히 저렴합니다.
지식 전이 범위: OPCD는 절차적이거나 프롬프트‑구동 행동에 뛰어나지만, 외부 기반이 필요한 고도로 사실적인 백과사전식 지식에는 한계가 있을 수 있습니다.
향후 방향: 저자들은 다중 교사 앙상블, 보존 대 획득을 균형 맞추는 적응형 KL 가중치, 그리고 증류 가능한 지식 범위를 넓히기 위한 검색‑증강 생성 통합을 탐구할 것을 제안합니다.

핵심 요약: 온‑폴리시 컨텍스트 증류는 프롬프트의 유연성과 컴팩트하고 자체 포함된 모델의 효율성 사이에 실용적인 다리를 제공하여, 언어‑모델 서비스에 전문성을 직접 삽입하려는 개발자에게 매력적인 도구가 됩니다.

저자

Tianzhu Ye
Li Dong
Xun Wu
Shaohan Huang
Furu Wei

논문 정보

arXiv ID: 2602.12275v1
Categories: cs.CL
Published: 2026년 2월 12일
PDF: PDF 다운로드

[Paper] 언어 모델을 위한 On-Policy Context Distillation

개요

Key Contributions

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] T3D: Trajectory Self-Distillation과 Direct Discriminative Optimization을 이용한 Few-Step Diffusion Language Models

[Paper] '죄송합니다, 못 들었어요': Speech Models가 가장 중요한 것을 놓치는 이유

[Paper] Olmix: LM 개발 전반에 걸친 데이터 믹싱 프레임워크

[Paper] Visual Reasoning Benchmark: 초등 교육 교실 실제 시각 문제에 대한 Multimodal LLMs 평가