[Paper] Depth-Grown 모델은 깊이의 저주를 극복할 수 있을까? 심층 분석

발행: 2개월 전 (2025년 12월 10일 오전 02:12 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.08819v1

Overview

이 논문은 MIDAS 로 널리 알려진, 학습 중에 Transformer 모델의 깊이를 점진적으로 늘리는 기법이 왜 학습 비용을 낮추면서 추론 성능을 향상시키는지를 조사한다. 저자들은 이 현상을 “깊이의 저주”(표준 Transformer에서 깊은 층이 최종 출력에 거의 기여하지 않는 현상)와 연결시켜, 깊이‑성장 모델이 실제로 층을 더 효율적으로 활용하고 잔차 스트림을 재구성하며 재사용 가능한 계산 블록을 형성한다는 것을 보여준다.

Key Contributions

경험적 연결: 깊이‑성장 학습(MIDAS)과 Transformer에서 깊이의 저주 완화 사이의 연관성.
깊이별 분석: 중간 스택 성장으로 인해 정적 깊이 모델에 비해 후반 층에서 활성화와 그래디언트 흐름이 더 높아짐을 밝혀냄.
잔차 스트림 역학 변화 발견: 성장된 모델은 순열 가능(permutable) 계산 블록을 형성하여 순서를 바꾸어도 성능에 영향을 주지 않음.
경량 MIDAS‑plus 수정(간단한 스케줄 트윅)으로 논리적 함의, ProofWriter 등 하위 추론 벤치마크에서 일관된 성능 향상 달성.
포괄적인 Ablation Suite: 성장 스케줄, 레이어‑노름 위치, 잔차 스케일링이 깊이 활용에 미치는 영향을 분리하여 평가.

Methodology

Model Families

저자들은 동일한 언어 모델링 코퍼스에서 세 가지 Transformer 인코더 패밀리를 학습한다:

Static – 처음부터 고정된 깊이(예: 24층)로 학습.
MIDAS – 학습 중 네트워크 중간에 새로운 층을 단계적으로 삽입하여 깊이를 증가.
MIDAS‑plus – MIDAS와 동일하지만 잔차 스케일링(α‑스케줄) 트윅을 추가.

Depth‑wise Probing

각 체크포인트마다 다음을 계산한다:

Layer contribution – 해당 층의 출력을 0으로 만들었을 때 출력 로짓이 얼마나 변하는지.
Gradient magnitude – 층별 역전파된 그래디언트의 평균 ℓ₂ 노름.
Residual stream similarity – 각 잔차 추가 전후의 은닉 상태 간 코사인 유사도.

Circuit Identification

활성화 패턴에 대한 클러스터링을 이용해 순열 가능한 블록을 탐지한다: 연속된 층들의 내부 표현이 학습 실행 간에 매우 교환 가능한 그룹.

Benchmarks

모든 모델은 추론 작업군(예: GSM‑8K, MathQA, 논리적 추론 데이터셋)에서 평가되어 하위 작업에 미치는 영향을 정량화한다.
파이프라인은 의도적으로 단순하게 유지: 표준 AdamW 옵티마이저, 동일한 데이터 스케줄, 차이는 오직 성장 스케줄뿐이며 재현성이 용이하도록 설계되었다.

Results & Findings

Metric	Static	MIDAS	MIDAS‑plus
Average layer contribution (last 12 layers)	0.12 × baseline	0.48 × baseline	0.55 × baseline
Mean gradient norm (deep layers)	0.03	0.11	0.13
Residual‑stream cosine drift	0.21	0.57	0.62
Reasoning benchmark avg. accuracy	71.3 %	78.9 %	80.5 %

깊은 층이 유용해짐: 정적 모델에서는 네트워크 후반 절반이 출력 신호의 <15 %만 기여해 깊이의 저주를 확인한다. MIDAS는 이를 ~50 %로 끌어올리고, MIDAS‑plus는 더 상승한다.
잔차 스트림 재구성: 유사도 분석에서 성장된 모델은 더 풍부하고 다양하게 잔차 업데이트를 유지하며, 이는 높은 그래디언트 흐름과 상관관계가 있다.
순열 가능한 블록: 클러스터링을 통해 3–4개의 안정적인 블록이 발견되었으며, 이 블록들을 섞어도 성능 저하가 없으며, 정적 모델에서는 거의 관찰되지 않는다.
벤치마크 향상: 작은 아키텍처 트윅(α‑스케줄)만으로도 추론 작업에서 약 1.5 % 절대 정확도 상승을 달성, 깊이‑성장 효과가 이론에 그치지 않음을 입증한다.

Practical Implications

비용 효율적 스케일링 – 팀은 GPU 사용 시간을 선형적으로 늘리지 않고도 더 깊은 Transformer를 학습할 수 있다; 중간 단계에서 깊이를 삽입하면 전체 FLOP를 약 30 % 절감하면서도 더 강력한 모델을 얻는다.
더 나은 파인튜닝 – 후반 층이 이제 정보가 풍부해지므로, 다단계 추론이 필요한 다운스트림 작업에서 더 적은 층을 고정하고 파인튜닝할 수 있어 전이 학습 파이프라인이 단순화된다.
모듈형 모델 설계 – 순열 가능한 블록의 등장으로 플러그‑앤‑플레이 모델 컴포넌트를 구현할 수 있다(예: 추론 블록을 도메인‑특정 블록으로 교체해 전체 네트워크 재학습 없이 활용).
디버깅 및 해석 가능성 – 모든 층이 의미 있게 기여하므로 깊이별 기여 메트릭이 더 유용해져 개발자가 실패 원인이나 병목을 쉽게 파악할 수 있다.
프레임워크 지원 – MIDAS‑plus 구현은 층 삽입과 잔차 스케일링을 조정하는 스케줄러만 필요하므로, PyTorch Lightning, Hugging Face Trainer 등 인기 라이브러리에 최소 코드 변경으로 추가 가능하다.

Limitations & Future Work

아키텍처 범위 – 실험은 인코더‑전용 Transformer에 국한되며, 디코더‑중심 혹은 인코더‑디코더 모델(LLaMA, T5 등)에서 깊이 성장 효과가 어떻게 나타나는지는 아직 불명확하다.
성장 스케줄 강직성 – 논문은 고정된 중간 스택 삽입 스케줄만 테스트했으며, 검증 손실 기반 적응형 스케줄이 추가 이득을 제공할 가능성이 있지만 탐색되지 않았다.
하드웨어 제약 – FLOP 절감은 보고되었지만, 실제 벽시계 시간 감소는 GPU 메모리를 동적으로 재배치할 수 있는지에 달려 있어 일부 플랫폼에서는 구현이 어려울 수 있다.
이론적 기반 – 순열 가능한 블록과 회로 모듈성에 대한 연결은 경험적이며, 엄밀한 이론이 부재한다. 이론적 정립은 자동 블록 탐지와 모델 압축을 안내할 수 있다.

향후 연구 방향으로는 멀티모달 Transformer에 깊이‑성장 학습을 확장하고, 블록 탐지를 자동화해 모델 압축에 활용하며, 성장 스케줄을 희소성 혹은 mixture‑of‑experts 기법과 결합하는 것이 있다.

Authors

Ferdinand Kapl
Emmanouil Angelis
Tobias Höppe
Kaitlin Maile
Johannes von Oswald
Nino Scherrer
Stefan Bauer

Paper Information

arXiv ID: 2512.08819v1
Categories: cs.CL, cs.AI, cs.LG
Published: December 9, 2025
PDF: Download PDF