[Paper] 더 강력한 Normalization-Free Transformers

발행: (2025년 12월 12일 오전 03:58 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.10938v1

Overview

논문 **“Stronger Normalization‑Free Transformers”**는 현대 트랜스포머에서 사실상 표준이 된 무거운 정규화 레이어(LayerNorm, RMSNorm 등)를 없앨 수 있음을 보여줍니다. 저자들은 Derf(x) = erf(αx + s) 라는 영리한 포인트와이즈 활성화를 설계함으로써, 모델 구조를 단순하고 학습 안정성을 유지하면서도 비전, 음성, 유전체 작업 전반에 걸쳐 더 나은 일반화를 달성합니다.

Key Contributions

  • Derf 활성화: 오류 함수(erf)를 기반으로 한 새로운 포인트와이즈 함수를 도입하여 극단값을 제한하고 기존 tanh 기반 대안보다 부드러운 그래디언트를 제공합니다.
  • 대규모 함수 탐색: 수천 개의 후보 함수를 체계적으로 탐색하여 정규화‑없는 학습에 중요한 설계 원칙을 밝혀냅니다.
  • 실증적 우위: Derf가 LayerNorm, RMSNorm, 그리고 기존에 제안된 Dynamic Tanh(DyT)보다 다양한 벤치마크(ImageNet 분류, 이미지 생성용 Vision Transformer, wav2vec‑style 음성 인코더, DNA 서열 모델)에서 일관되게 우수함을 입증합니다.
  • 일반화‑중심 분석: 성능 향상이 단순히 훈련 정확도 상승이 아니라 OOD(Out‑of‑Distribution) 성능 개선에서 비롯된다는 점을 보여줍니다.
  • 실용적인 레시피: 몇 개의 추가 하이퍼파라미터(αs)만 필요하고 기존 트랜스포머 코드베이스에 그대로 적용할 수 있는 정규화 레이어 대체 방안을 제공합니다.

Methodology

  1. 이론적 근거 – 저자들은 포인트와이즈 함수가 그래디언트 흐름, 활성화 분포, 그리고 이상치의 “소프트 클리핑”에 어떻게 영향을 미치는지 분석합니다. 여기서 세 가지 바람직한 특성(출력 제한, 단조성, 0 주변 기울기 조절 가능)을 도출합니다.
  2. 탐색 공간 정의 – 시그모이드, tanh, erf, 다항식 스케일링 등을 조합한 파라메트릭 함수군을 구성하고, 작은 프록시 작업(CIFAR‑10에서의 소형 트랜스포머)에서 수백만 개의 설정을 그리드‑플러스‑랜덤 탐색합니다.
  3. 선정 기준 – 후보들은 (a) 훈련 안정성(그래디언트 폭발/소실 없음), (b) 검증 손실, (c) 계산 오버헤드에 따라 순위가 매겨집니다. 최상위 설계가 Derf 함수입니다.
  4. 전체 규모 검증 – 선택된 활성화를 표준 트랜스포머 블록(인코더‑전용 및 인코더‑디코더 모두)에 적용하고, 네 영역에 걸쳐 다른 하이퍼파라미터는 강력한 베이스라인과 동일하게 유지합니다.
  5. 소거 실험αs를 변형하고, DyT와 LayerNorm과 비교하며, 라벨을 섞은 실험을 통해 일반화에 미치는 영향을 분리합니다.

Results & Findings

DomainBaseline (LayerNorm)DyTDerf (this work)
ImageNet‑1K (ViT‑B/16)81.2 % top‑180.9 %82.5 %
Image Generation (VQ‑GAN)FID = 12.3FID = 12.0FID = 10.8
Speech Representation (wav2vec‑2.0)WER = 7.4 %WER = 7.6 %7.0 %
DNA Sequence Modeling (Enformer)Pearson = 0.91Pearson = 0.900.93
  • 훈련 안정성: LayerNorm 설정보다 2배 높은 학습률에서도 그래디언트 폭발이 전혀 관찰되지 않았습니다.
  • 파라미터 수 및 FLOPs: 베이스라인과 동일합니다(Derf는 순수 활성화이며 추가 파라미터가 없습니다).
  • 일반화 테스트: OOD 이미지 손상(ImageNet‑C)에서 Derf는 평균 손상 오류를 LayerNorm 대비 약 3 % 상대적으로 개선했습니다.
  • 소거 실험: s 오프셋을 제거하면 성능이 약 0.5 % 절대 감소하여, 활성화 작동점을 이동시키는 역할을 확인했습니다.

Practical Implications

  • 모델 파이프라인 단순화 – 개발자는 LayerNorm 레이어를 제거함으로써 코드 복잡성을 낮추고, 혼합 정밀도 처리 시 발생할 수 있는 버그 위험을 줄일 수 있습니다.
  • 속도·메모리 이득 – 토큰당 평균·분산 계산을 없애면 특히 메모리 대역폭이 병목인 엣지 디바이스에서 작지만 측정 가능한 오버헤드 감소를 얻을 수 있습니다.
  • 높은 학습률 적용 – 부드러운 그래디언트 지형 덕분에 공격적인 학습률 스케줄(예: 워밍업을 포함한 코사인 감소)도 불안정성 없이 실험할 수 있습니다.
  • 도메인 간 이식성 – Derf는 단순 활성화이므로 BERT‑계열 NLP 모델, Vision Transformer, 오디오 인코더, 혹은 새로운 멀티모달 모델 등 모든 트랜스포머 스타일 아키텍처에 적용 가능합니다.
  • 하드웨어 가속 가능성erf 함수는 이미 많은 GPU/TPU 라이브러리에서 지원되며, 유리 다항식 근사 등을 사용하면 거의 지연 없이 구현할 수 있습니다.

Limitations & Future Work

  • 하이퍼파라미터 민감도 – 두 스칼라(α, s)는 도메인마다 약간의 튜닝이 필요합니다. 논문에서는 기본값을 제시하지만 보편적인 설정은 아직 없습니다.
  • 극한 깊이와의 호환성 – 실험은 최대 ~48‑layer 트랜스포머까지 진행했으며, 200‑layer 이상을 사용하는 대형 언어 모델에 Derf가 그대로 스케일링되는지는 미확인입니다.
  • 이론적 보장 – 실증적 증거는 강력하지만, Derf가 일반화를 개선하는 메커니즘(예: 암묵적 정규화)에 대한 정식 분석은 아직 부족합니다.
  • 다양한 아키텍처 적용 – 연구는 순수 트랜스포머에 초점을 맞췄으며, 컨볼루션‑보강형이나 순환형 하이브리드에 Derf를 적용하면 새로운 트레이드오프가 드러날 수 있습니다.

핵심 요약: Derf는 정규화‑없는 드롭‑인 대체 옵션으로, 다양한 AI 작업에서 측정 가능한 성능 향상을 제공합니다. 트랜스포머 스택을 간소화하거나 학습 안정성 한계를 넓히고자 하는 개발자에게 매력적인 도구라 할 수 있습니다.

Authors

  • Mingzhi Chen
  • Taiming Lu
  • Jiachen Zhu
  • Mingjie Sun
  • Zhuang Liu

Paper Information

  • arXiv ID: 2512.10938v1
  • Categories: cs.LG, cs.AI, cs.CL, cs.CV
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »