[Paper] 옵티마이저-모델 일관성: 프리트레이닝과 동일한 옵티마이저를 사용한 전체 파인튜닝은 덜 잊는다
발행: (2026년 5월 8일 AM 02:57 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2605.06654v1
Overview
저자들은 놀라울 정도로 간단하지만 강력한 아이디어를 조사합니다: 대형 언어 모델(LLM)을 파인튜닝할 때 사전 학습에 사용했던 정확히 같은 옵티마이저를 계속 사용한다는 것입니다. 그들의 실험은 이 “옵티마이저‑모델 일관성”이 파인튜닝 과정에서 발생하는 재앙적 망각(catastrophic forgetting)을 크게 감소시키면서, 옵티마이저를 교체하거나 LoRA와 같은 파라미터 효율적인 트릭에 의존하는 기존 파인튜닝 파이프라인의 성능에 도달하거나 심지어 능가한다는 것을 보여줍니다.
주요 기여
- 옵티마이저‑모델 일관성에 대한 실증적 발견: 사전 학습 옵티마이저를 사용한 전체 파라미터 파인튜닝은 대체 옵티마이저나 LoRA 기반 방법보다 일관되게 망각이 적다.
- 정규화 관점: 옵티마이저가 은닉 활성화에 대한 암묵적 정규화 역할을 하여 사전 학습 체크포인트 주변의 손실 지형을 형성한다는 것을 보여준다.
- 이론적 통찰: 옵티마이저에 의해 유도된 정규화를 고려할 때, 최적의 파인튜닝 가중치 업데이트는 동일한 옵티마이저를 재사용할 때 자연스럽게 생성되는 특정 구조를 따라야 함을 제시한다.
- 옵티마이저 비교 (Muon vs. AdamW): Muon이 기계적 암기를 장려하여 추론 과제 파인튜닝에 해를 끼치는 반면, AdamW는 그렇지 않다는 통제된 연구 결과를 제공한다.
- 합성 언어 모델 실험: 암기 효과를 분리하여 작은 파인튜닝 데이터셋만 사용할 때 강한 암기가 패턴 학습을 방해한다는 것을 확인한다.
방법론
- 제어된 파인‑튜닝 실험 – 저자들은 여러 공개된 LLM 체크포인트(e.g., GPT‑2‑유사 모델)를 가져와 다양한 옵티마이저를 사용해 하위 작업(분류, 추론 등)에서 파인‑튜닝한다: 원래 사전‑학습 옵티마이저(AdamW 또는 Muon)와 불일치 옵티마이저 및 LoRA를 비교한다.
- 망각 측정 – 파인‑튜닝 후, 모델을 별도로 보관된 “사전‑학습” 테스트 세트(e.g., 언어 모델링 퍼플렉시티)에서 평가하여 손실된 지식량을 정량화하고, 동시에 하위 작업 성능을 확인한다.
- 활성화 정규화 분석 – 사전‑학습 동안 활성화 통계(노름, 분산)를 추적함으로써 각 옵티마이저의 암묵적 정규화 효과를 특성화한다.
- 이론적 모델링 – 옵티마이저의 정규화를 손실 함수의 페널티 항으로 공식화하고, 파인‑튜닝 그래디언트가 사전‑학습 풍경과 정렬되어 망각을 최소화하는 조건을 도출한다.
- 합성 기억력 벤치마크 – 기억력과 패턴 학습을 직접 측정할 수 있는 장난감 언어 모델링 데이터셋을 구축하여 Muon과 AdamW를 명확히 비교한다.
Results & Findings
| Experiment | 사전‑학습에 사용된 Optimizer | 파인‑튜닝에 사용된 Optimizer | 다운스트림 태스크 점수 | Forgetting (사전‑학습 LM 손실) |
|---|---|---|---|---|
| Standard SFT (AdamW) | AdamW | AdamW (동일) | ↑↑ (baseline) | 작은 증가 (낮은 Forgetting) |
| Mismatched optimizer | AdamW | AdamW → SGD | 동일 / 약간 낮음 | 큰 증가 (더 많은 Forgetting) |
| LoRA (AdamW pre‑train) | AdamW | LoRA (AdamW) | 비슷함 | 눈에 띄는 Forgetting |
| Muon pre‑train, AdamW fine‑tune | Muon | AdamW | ↓ (악화) | 높은 Forgetting |
| Muon pre‑train, Muon fine‑tune | Muon | Muon (동일) | Mismatched보다 약간 좋음 | AdamW‑AdamW보다 여전히 높은 Forgetting |
- Optimizer‑model 일관성이 최적의 트레이드‑오프를 제공: 단계마다 동일한 Optimizer를 사용하면 사전‑학습 지식을 더 많이 보존하면서도 동등하거나 더 나은 다운스트림 정확도를 달성한다.
- AdamW가 추론 태스크에서 Muon보다 우수: Muon의 강한 기억 편향은 데이터가 부족할 때 파인‑튜닝을 방해하며, 이는 합성 실험의 결론을 확인한다.
- 활성화 정규화 패턴: AdamW는 더 부드러운 활성화 분포를 장려하여 손실 지형을 평탄하게 만들고, 사전‑학습된 가중치를 불안정하게 만들지 않으면서 파인‑튜닝을 더 쉽게 진행할 수 있게 한다.
Practical Implications
- Simplify fine‑tuning pipelines – Teams can drop LoRA adapters or custom optimizer schedules and simply reuse the pre‑training optimizer, reducing engineering overhead.
- Lower risk of catastrophic forgetting – Critical for applications that must retain general language abilities (e.g., chatbots that continue to answer open‑ended queries after task‑specific fine‑tuning).
- Optimizer selection matters – When pre‑training with AdamW, stick with AdamW for downstream tasks; avoid optimizers that bias toward memorization (e.g., Muon) if you expect to fine‑tune on limited data.
- Resource‑efficient development – Full‑parameter fine‑tuning with the same optimizer can be run on the same hardware configuration used for pre‑training, avoiding extra memory for adapter layers.
- Guidance for open‑source model releases – Model providers can publish the optimizer hyper‑parameters alongside the checkpoint, enabling downstream users to replicate the consistency benefit out‑of‑the‑box.
제한 사항 및 향후 연구
- 모델 범위 – 실험은 중규모 LLM에 초점을 맞추었으며, 옵티마이저 동역학이 다를 수 있는 최신 수십억 파라미터 모델에 대한 검증은 아직 필요합니다.
- 작업 다양성 – 이 연구는 분류 및 추론 작업을 다루며, 코드 생성, 멀티모달 파인튜닝 등 다른 도메인은 별도의 검증이 필요합니다.
- 하이퍼파라미터 민감도 – 동일한 옵티마이저를 사용하지만, 파인튜닝에 최적의 학습률 및 가중치 감쇠는 여전히 다를 수 있으며, 논문에서는 이 공간을 충분히 탐색하지 않았습니다.
- 이론적 가정 – 정규화 분석은 부드러운 활성화 통계를 전제로 하지만, 매우 희소하거나 양자화된 모델은 이러한 가정을 깨뜨릴 수 있습니다.
- 향후 방향 – 옵티마이저 계열(예: RMSProp, Adafactor)로 분석을 확장하고, 일관성을 유지하는 적응형 학습률 스케줄을 탐색하며, 파라미터 효율적 방법(예: LoRA와 동일 옵티마이저 파인튜닝 결합)과 통합하는 것이 유망한 연구 방향입니다.
저자
- Yuxing Liu
- Jianyu Wang
- Tong Zhang
논문 정보
- arXiv ID: 2605.06654v1
- 분류: cs.LG, cs.AI, math.OC
- 출판일: 2026년 5월 7일
- PDF: PDF 다운로드