[Paper] 옵티마이저-모델 일관성: 프리트레이닝과 동일한 옵티마이저를 사용한 전체 파인튜닝은 덜 잊는다

발행: 3일 전 (2026년 5월 8일 AM 02:57 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.06654v1

Overview

저자들은 놀라울 정도로 간단하지만 강력한 아이디어를 조사합니다: 대형 언어 모델(LLM)을 파인튜닝할 때 사전 학습에 사용했던 정확히 같은 옵티마이저를 계속 사용한다는 것입니다. 그들의 실험은 이 “옵티마이저‑모델 일관성”이 파인튜닝 과정에서 발생하는 재앙적 망각(catastrophic forgetting)을 크게 감소시키면서, 옵티마이저를 교체하거나 LoRA와 같은 파라미터 효율적인 트릭에 의존하는 기존 파인튜닝 파이프라인의 성능에 도달하거나 심지어 능가한다는 것을 보여줍니다.

주요 기여

옵티마이저‑모델 일관성에 대한 실증적 발견: 사전 학습 옵티마이저를 사용한 전체 파라미터 파인튜닝은 대체 옵티마이저나 LoRA 기반 방법보다 일관되게 망각이 적다.
정규화 관점: 옵티마이저가 은닉 활성화에 대한 암묵적 정규화 역할을 하여 사전 학습 체크포인트 주변의 손실 지형을 형성한다는 것을 보여준다.
이론적 통찰: 옵티마이저에 의해 유도된 정규화를 고려할 때, 최적의 파인튜닝 가중치 업데이트는 동일한 옵티마이저를 재사용할 때 자연스럽게 생성되는 특정 구조를 따라야 함을 제시한다.
옵티마이저 비교 (Muon vs. AdamW): Muon이 기계적 암기를 장려하여 추론 과제 파인튜닝에 해를 끼치는 반면, AdamW는 그렇지 않다는 통제된 연구 결과를 제공한다.
합성 언어 모델 실험: 암기 효과를 분리하여 작은 파인튜닝 데이터셋만 사용할 때 강한 암기가 패턴 학습을 방해한다는 것을 확인한다.

방법론

제어된 파인‑튜닝 실험 – 저자들은 여러 공개된 LLM 체크포인트(e.g., GPT‑2‑유사 모델)를 가져와 다양한 옵티마이저를 사용해 하위 작업(분류, 추론 등)에서 파인‑튜닝한다: 원래 사전‑학습 옵티마이저(AdamW 또는 Muon)와 불일치 옵티마이저 및 LoRA를 비교한다.
망각 측정 – 파인‑튜닝 후, 모델을 별도로 보관된 “사전‑학습” 테스트 세트(e.g., 언어 모델링 퍼플렉시티)에서 평가하여 손실된 지식량을 정량화하고, 동시에 하위 작업 성능을 확인한다.
활성화 정규화 분석 – 사전‑학습 동안 활성화 통계(노름, 분산)를 추적함으로써 각 옵티마이저의 암묵적 정규화 효과를 특성화한다.
이론적 모델링 – 옵티마이저의 정규화를 손실 함수의 페널티 항으로 공식화하고, 파인‑튜닝 그래디언트가 사전‑학습 풍경과 정렬되어 망각을 최소화하는 조건을 도출한다.
합성 기억력 벤치마크 – 기억력과 패턴 학습을 직접 측정할 수 있는 장난감 언어 모델링 데이터셋을 구축하여 Muon과 AdamW를 명확히 비교한다.

Results & Findings

Experiment	사전‑학습에 사용된 Optimizer	파인‑튜닝에 사용된 Optimizer	다운스트림 태스크 점수	Forgetting (사전‑학습 LM 손실)
Standard SFT (AdamW)	AdamW	AdamW (동일)	↑↑ (baseline)	작은 증가 (낮은 Forgetting)
Mismatched optimizer	AdamW	AdamW → SGD	동일 / 약간 낮음	큰 증가 (더 많은 Forgetting)
LoRA (AdamW pre‑train)	AdamW	LoRA (AdamW)	비슷함	눈에 띄는 Forgetting
Muon pre‑train, AdamW fine‑tune	Muon	AdamW	↓ (악화)	높은 Forgetting
Muon pre‑train, Muon fine‑tune	Muon	Muon (동일)	Mismatched보다 약간 좋음	AdamW‑AdamW보다 여전히 높은 Forgetting

Optimizer‑model 일관성이 최적의 트레이드‑오프를 제공: 단계마다 동일한 Optimizer를 사용하면 사전‑학습 지식을 더 많이 보존하면서도 동등하거나 더 나은 다운스트림 정확도를 달성한다.
AdamW가 추론 태스크에서 Muon보다 우수: Muon의 강한 기억 편향은 데이터가 부족할 때 파인‑튜닝을 방해하며, 이는 합성 실험의 결론을 확인한다.
활성화 정규화 패턴: AdamW는 더 부드러운 활성화 분포를 장려하여 손실 지형을 평탄하게 만들고, 사전‑학습된 가중치를 불안정하게 만들지 않으면서 파인‑튜닝을 더 쉽게 진행할 수 있게 한다.

Practical Implications

Simplify fine‑tuning pipelines – Teams can drop LoRA adapters or custom optimizer schedules and simply reuse the pre‑training optimizer, reducing engineering overhead.
Lower risk of catastrophic forgetting – Critical for applications that must retain general language abilities (e.g., chatbots that continue to answer open‑ended queries after task‑specific fine‑tuning).
Optimizer selection matters – When pre‑training with AdamW, stick with AdamW for downstream tasks; avoid optimizers that bias toward memorization (e.g., Muon) if you expect to fine‑tune on limited data.
Resource‑efficient development – Full‑parameter fine‑tuning with the same optimizer can be run on the same hardware configuration used for pre‑training, avoiding extra memory for adapter layers.
Guidance for open‑source model releases – Model providers can publish the optimizer hyper‑parameters alongside the checkpoint, enabling downstream users to replicate the consistency benefit out‑of‑the‑box.

제한 사항 및 향후 연구

모델 범위 – 실험은 중규모 LLM에 초점을 맞추었으며, 옵티마이저 동역학이 다를 수 있는 최신 수십억 파라미터 모델에 대한 검증은 아직 필요합니다.
작업 다양성 – 이 연구는 분류 및 추론 작업을 다루며, 코드 생성, 멀티모달 파인튜닝 등 다른 도메인은 별도의 검증이 필요합니다.
하이퍼파라미터 민감도 – 동일한 옵티마이저를 사용하지만, 파인튜닝에 최적의 학습률 및 가중치 감쇠는 여전히 다를 수 있으며, 논문에서는 이 공간을 충분히 탐색하지 않았습니다.
이론적 가정 – 정규화 분석은 부드러운 활성화 통계를 전제로 하지만, 매우 희소하거나 양자화된 모델은 이러한 가정을 깨뜨릴 수 있습니다.
향후 방향 – 옵티마이저 계열(예: RMSProp, Adafactor)로 분석을 확장하고, 일관성을 유지하는 적응형 학습률 스케줄을 탐색하며, 파라미터 효율적 방법(예: LoRA와 동일 옵티마이저 파인튜닝 결합)과 통합하는 것이 유망한 연구 방향입니다.

저자

Yuxing Liu
Jianyu Wang
Tong Zhang

논문 정보

arXiv ID: 2605.06654v1
분류: cs.LG, cs.AI, math.OC
출판일: 2026년 5월 7일
PDF: PDF 다운로드

[Paper] 옵티마이저-모델 일관성: 프리트레이닝과 동일한 옵티마이저를 사용한 전체 파인튜닝은 덜 잊는다

Overview

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] 제로샷 상상 음성 디코딩 via 상상-청취 MEG 매핑

[Paper] GRAPHLCP: 구조 인식 그래프에 대한 지역화된 컨포멀 예측

[Paper] VecCISC: 추론 트레이스 클러스터링 및 후보 답변 선택을 통한 신뢰도 기반 자체 일관성 향상