[Paper] Depth-Grown 모델은 깊이의 저주를 극복할 수 있을까? 심층 분석

발행: (2025년 12월 10일 오전 02:12 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.08819v1

Overview

이 논문은 MIDAS 로 널리 알려진, 학습 중에 Transformer 모델의 깊이를 점진적으로 늘리는 기법이 왜 학습 비용을 낮추면서 추론 성능을 향상시키는지를 조사한다. 저자들은 이 현상을 “깊이의 저주”(표준 Transformer에서 깊은 층이 최종 출력에 거의 기여하지 않는 현상)와 연결시켜, 깊이‑성장 모델이 실제로 층을 더 효율적으로 활용하고 잔차 스트림을 재구성하며 재사용 가능한 계산 블록을 형성한다는 것을 보여준다.

Key Contributions

  • 경험적 연결: 깊이‑성장 학습(MIDAS)과 Transformer에서 깊이의 저주 완화 사이의 연관성.
  • 깊이별 분석: 중간 스택 성장으로 인해 정적 깊이 모델에 비해 후반 층에서 활성화와 그래디언트 흐름이 더 높아짐을 밝혀냄.
  • 잔차 스트림 역학 변화 발견: 성장된 모델은 순열 가능(permutable) 계산 블록을 형성하여 순서를 바꾸어도 성능에 영향을 주지 않음.
  • 경량 MIDAS‑plus 수정(간단한 스케줄 트윅)으로 논리적 함의, ProofWriter 등 하위 추론 벤치마크에서 일관된 성능 향상 달성.
  • 포괄적인 Ablation Suite: 성장 스케줄, 레이어‑노름 위치, 잔차 스케일링이 깊이 활용에 미치는 영향을 분리하여 평가.

Methodology

Model Families

저자들은 동일한 언어 모델링 코퍼스에서 세 가지 Transformer 인코더 패밀리를 학습한다:

  • Static – 처음부터 고정된 깊이(예: 24층)로 학습.
  • MIDAS – 학습 중 네트워크 중간에 새로운 층을 단계적으로 삽입하여 깊이를 증가.
  • MIDAS‑plus – MIDAS와 동일하지만 잔차 스케일링(α‑스케줄) 트윅을 추가.

Depth‑wise Probing

각 체크포인트마다 다음을 계산한다:

  • Layer contribution – 해당 층의 출력을 0으로 만들었을 때 출력 로짓이 얼마나 변하는지.
  • Gradient magnitude – 층별 역전파된 그래디언트의 평균 ℓ₂ 노름.
  • Residual stream similarity – 각 잔차 추가 전후의 은닉 상태 간 코사인 유사도.

Circuit Identification

활성화 패턴에 대한 클러스터링을 이용해 순열 가능한 블록을 탐지한다: 연속된 층들의 내부 표현이 학습 실행 간에 매우 교환 가능한 그룹.

Benchmarks

모든 모델은 추론 작업군(예: GSM‑8K, MathQA, 논리적 추론 데이터셋)에서 평가되어 하위 작업에 미치는 영향을 정량화한다.
파이프라인은 의도적으로 단순하게 유지: 표준 AdamW 옵티마이저, 동일한 데이터 스케줄, 차이는 오직 성장 스케줄뿐이며 재현성이 용이하도록 설계되었다.

Results & Findings

MetricStaticMIDASMIDAS‑plus
Average layer contribution (last 12 layers)0.12 × baseline0.48 × baseline0.55 × baseline
Mean gradient norm (deep layers)0.030.110.13
Residual‑stream cosine drift0.210.570.62
Reasoning benchmark avg. accuracy71.3 %78.9 %80.5 %
  • 깊은 층이 유용해짐: 정적 모델에서는 네트워크 후반 절반이 출력 신호의 <15 %만 기여해 깊이의 저주를 확인한다. MIDAS는 이를 ~50 %로 끌어올리고, MIDAS‑plus는 더 상승한다.
  • 잔차 스트림 재구성: 유사도 분석에서 성장된 모델은 더 풍부하고 다양하게 잔차 업데이트를 유지하며, 이는 높은 그래디언트 흐름과 상관관계가 있다.
  • 순열 가능한 블록: 클러스터링을 통해 3–4개의 안정적인 블록이 발견되었으며, 이 블록들을 섞어도 성능 저하가 없으며, 정적 모델에서는 거의 관찰되지 않는다.
  • 벤치마크 향상: 작은 아키텍처 트윅(α‑스케줄)만으로도 추론 작업에서 약 1.5 % 절대 정확도 상승을 달성, 깊이‑성장 효과가 이론에 그치지 않음을 입증한다.

Practical Implications

  • 비용 효율적 스케일링 – 팀은 GPU 사용 시간을 선형적으로 늘리지 않고도 더 깊은 Transformer를 학습할 수 있다; 중간 단계에서 깊이를 삽입하면 전체 FLOP를 약 30 % 절감하면서도 더 강력한 모델을 얻는다.
  • 더 나은 파인튜닝 – 후반 층이 이제 정보가 풍부해지므로, 다단계 추론이 필요한 다운스트림 작업에서 더 적은 층을 고정하고 파인튜닝할 수 있어 전이 학습 파이프라인이 단순화된다.
  • 모듈형 모델 설계 – 순열 가능한 블록의 등장으로 플러그‑앤‑플레이 모델 컴포넌트를 구현할 수 있다(예: 추론 블록을 도메인‑특정 블록으로 교체해 전체 네트워크 재학습 없이 활용).
  • 디버깅 및 해석 가능성 – 모든 층이 의미 있게 기여하므로 깊이별 기여 메트릭이 더 유용해져 개발자가 실패 원인이나 병목을 쉽게 파악할 수 있다.
  • 프레임워크 지원 – MIDAS‑plus 구현은 층 삽입과 잔차 스케일링을 조정하는 스케줄러만 필요하므로, PyTorch Lightning, Hugging Face Trainer 등 인기 라이브러리에 최소 코드 변경으로 추가 가능하다.

Limitations & Future Work

  • 아키텍처 범위 – 실험은 인코더‑전용 Transformer에 국한되며, 디코더‑중심 혹은 인코더‑디코더 모델(LLaMA, T5 등)에서 깊이 성장 효과가 어떻게 나타나는지는 아직 불명확하다.
  • 성장 스케줄 강직성 – 논문은 고정된 중간 스택 삽입 스케줄만 테스트했으며, 검증 손실 기반 적응형 스케줄이 추가 이득을 제공할 가능성이 있지만 탐색되지 않았다.
  • 하드웨어 제약 – FLOP 절감은 보고되었지만, 실제 벽시계 시간 감소는 GPU 메모리를 동적으로 재배치할 수 있는지에 달려 있어 일부 플랫폼에서는 구현이 어려울 수 있다.
  • 이론적 기반 – 순열 가능한 블록과 회로 모듈성에 대한 연결은 경험적이며, 엄밀한 이론이 부재한다. 이론적 정립은 자동 블록 탐지와 모델 압축을 안내할 수 있다.

향후 연구 방향으로는 멀티모달 Transformer에 깊이‑성장 학습을 확장하고, 블록 탐지를 자동화해 모델 압축에 활용하며, 성장 스케줄을 희소성 혹은 mixture‑of‑experts 기법과 결합하는 것이 있다.

Authors

  • Ferdinand Kapl
  • Emmanouil Angelis
  • Tobias Höppe
  • Kaitlin Maile
  • Johannes von Oswald
  • Nino Scherrer
  • Stefan Bauer

Paper Information

  • arXiv ID: 2512.08819v1
  • Categories: cs.CL, cs.AI, cs.LG
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »