[Paper] AI에서 알고리즘적 진보의 기원에 관하여

발행: (2025년 11월 27일 오전 02:46 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.21622v1

Overview

이 논문은 지난 10년 동안 AI 학습이 왜 급격히 계산 효율성이 향상되었는지를 조사한다. 일련의 역사적 알고리즘 혁신을 분석하고 대규모 스케일링 실험을 수행함으로써, 저자들은 관찰된 22,000배의 FLOP 효율성 향상이 “정적” 알고리즘 개선만으로는 설명될 수 없음을 보여준다. 대신, 대부분의 이득은 스케일 의존 효율성—특히 LSTM에서 Transformer로의 전환—에서 비롯되며, 이는 모델 크기가 커짐에 따라 계산이 모델 성능으로 전환되는 방식을 크게 바꾼다.

Key Contributions

  • 역사적 알고리즘 이득의 정량적 감사: 잘 알려진 혁신(예: 잔차 연결, 레이어 정규화)의 소규모 소거 실험은 전체 효율성 증가의 < 10배만을 설명한다.
  • 문헌 전반에 걸친 누락 이득 추정: 추가 논문들을 조사한 결과 또 다른 < 10배 기여가 있음을 제시하지만, 보고된 22,000배에는 여전히 크게 못 미친다.
  • 스케일링 법칙 실험: 다양한 계산 예산에서 LSTM과 Transformer 계열을 직접 비교하여 서로 다른 계산 최적 스케일링 지수를 발견한다.
  • 스케일 의존 효율성 모델: 알고리즘 진보가 고정된 배수가 아니라 모델 크기에 따라 변한다는 것을 보여주며, 전체 이득의 ~ 6,900배를 설명한다.
  • “알고리즘 진보” 재해석: 효율성 지표가 크게 참조에 의존하며, 소형 모델 개선은 미미했음을 주장한다.

Methodology

  1. Ablation Benchmarks: 저자들은 일련의 전형적인 구조적 변형(예: 어텐션 메커니즘, 정규화 레이어)을 재구현하고 표준 NLP/비전 과제에서 FLOP‑대‑정확도 트레이드오프를 측정했다.
  2. Literature Survey: 2012‑2023년 논문에서 보고된 효율성 이득을 수집하고, 소거 실험에 포함되지 않은 각 혁신에 대한 대략적인 곱셈적 개선을 추출했다.
  3. Scaling Experiments: 동일한 학습 파이프라인을 사용해 LSTM 모델군과 Transformer 모델군을 넓은 계산 예산(10⁹ ~ 10¹⁴ FLOP)에서 학습했다. 각 군에 대해 경험적 계산‑최적 스케일링 법칙 ( \text{Performance} \propto \text{Compute}^{\alpha} )을 피팅하고 지수 ( \alpha_{\text{LSTM}} )와 ( \alpha_{\text{Transformer}} )를 비교했다.
  4. Extrapolation: 측정된 스케일링 지수를 계산 예산의 역사적 성장과 통합함으로써 LSTM→Transformer 전환에 기인한 누적 효율성 이득을 추정했다.

모든 실험은 공개된 하드웨어(GPU 클러스터)에서 수행되었으며, 재현성을 위해 코드가 공개된다.

Results & Findings

AspectFinding
Static algorithmic gains소거 실험에서 < 10배, 문헌 조사에서 < 10배, 총합 < 100배.
Scaling exponent differenceLSTM: ( \alpha \approx 0.45 ); Transformer: ( \alpha \approx 0.65 ). 높은 지수는 모델이 커질수록 추가 FLOP당 더 많은 성능을 얻는다는 의미다.
Cumulative efficiency계산 예산이 기하급수적으로 성장(≈ 10⁴배, 2012‑2023)함에 따라 Transformer의 스케일 의존 이점은 전체 FLOP‑효율성 향상에 ≈ 6,930배를 기여한다.
Dominant source of progressLSTM‑to‑Transformer 전환만으로 관측된 효율성 개선의 대부분(> 90%)을 설명한다.
Other innovations대부분의 다른 구조적 변형(예: 잔차 연결, 어텐션 변형)은 거의 동일한 스케일링 지수를 보여 장기 효율성에 미치는 영향이 미미하다.

Practical Implications

  • 예산 제한 프로젝트를 위한 모델 선택: 대형 모델을 학습할 때는 스케일링 지수가 순수한 구조적 변형보다 더 중요하다. Transformer 기반 계열을 선택하면 LSTM 스타일 설계보다 훨씬 높은 계산 투자 수익을 얻을 수 있다.
  • 하드웨어‑인식 로드맵 계획: 다음 세대 GPU/TPU 등 계산 예산을 예측하는 기업은 알고리즘의 스케일 의존 특성을 고려해야 한다; 하드웨어가 2배 늘어나면 지수가 높은 알고리즘에서는 2배 이상 성능 향상이 가능하다.
  • 벤치마크 표준: 알고리즘을 정적 배수로 취급하는 현재 “FLOP‑효율성” 벤치마크는 개발자를 오도할 수 있다. 계산에 따른 성능(스케일링 곡선)으로 보고하는 것이 보다 실용적인 지표다.
  • 연구 초점: 작은 모델 효율성을 개선하려는 노력(예: 프루닝, 양자화)은 스케일링 지수를 높이지 않는 한 AI 진보 전체 궤도에 제한적인 영향을 미친다.
  • 툴링 및 AutoML: 모델 계열을 탐색하는 AutoML 파이프라인은 대규모 배포 시 더 가파른 지수를 가진 계열을 우선시하도록 스케일링 법칙 예측을 통합해야 한다.

Limitations & Future Work

  • Task diversity: 스케일링 실험은 주로 언어 모델링과 몇몇 비전 벤치마크에 초점을 맞추었으며, 강화 학습·음성 등 다른 분야는 다른 지수 동역학을 보일 수 있다.
  • Hardware heterogeneity: 모든 실험이 GPU에서 수행되었으며, 특수 ASIC이나 미래 아키텍처에서는 스케일링 행동이 달라질 수 있다.
  • Long‑tail innovations: 희소성, mixture‑of‑experts 등 많은 틈새 알고리즘 아이디어는 충분히 탐색되지 않았으며, 극한 계산 수준에서 스케일링에 영향을 줄 수 있다.
  • Extrapolation risk: 관측된 계산 예산을 훨씬 초과하는 효율성 예측은 스케일링 법칙이 지속된다는 가정에 기반하는데, 신경형 컴퓨팅 등 새로운 패러다임에서는 깨질 수 있다.

향후 연구는 더 다양한 모델 계열에 대한 스케일링 법칙 분석을 확대하고, 하드웨어‑특정 요인을 포함하며, 새로운 알고리즘 방향이 스케일링 지수를 증가시킬 수 있는지 탐구할 수 있다.

Authors

  • Hans Gundlach
  • Alex Fogelson
  • Jayson Lynch
  • Ana Trisovic
  • Jonathan Rosenfeld
  • Anmol Sandhu
  • Neil Thompson

Paper Information

  • arXiv ID: 2511.21622v1
  • Categories: cs.LG, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »