[Paper] AI에서 알고리즘적 진보의 기원에 관하여

발행: 2개월 전 (2025년 11월 27일 오전 02:46 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2511.21622v1

Overview

이 논문은 지난 10년 동안 AI 학습이 왜 급격히 계산 효율성이 향상되었는지를 조사한다. 일련의 역사적 알고리즘 혁신을 분석하고 대규모 스케일링 실험을 수행함으로써, 저자들은 관찰된 22,000배의 FLOP 효율성 향상이 “정적” 알고리즘 개선만으로는 설명될 수 없음을 보여준다. 대신, 대부분의 이득은 스케일 의존 효율성—특히 LSTM에서 Transformer로의 전환—에서 비롯되며, 이는 모델 크기가 커짐에 따라 계산이 모델 성능으로 전환되는 방식을 크게 바꾼다.

Key Contributions

역사적 알고리즘 이득의 정량적 감사: 잘 알려진 혁신(예: 잔차 연결, 레이어 정규화)의 소규모 소거 실험은 전체 효율성 증가의 < 10배만을 설명한다.
문헌 전반에 걸친 누락 이득 추정: 추가 논문들을 조사한 결과 또 다른 < 10배 기여가 있음을 제시하지만, 보고된 22,000배에는 여전히 크게 못 미친다.
스케일링 법칙 실험: 다양한 계산 예산에서 LSTM과 Transformer 계열을 직접 비교하여 서로 다른 계산 최적 스케일링 지수를 발견한다.
스케일 의존 효율성 모델: 알고리즘 진보가 고정된 배수가 아니라 모델 크기에 따라 변한다는 것을 보여주며, 전체 이득의 ~ 6,900배를 설명한다.
“알고리즘 진보” 재해석: 효율성 지표가 크게 참조에 의존하며, 소형 모델 개선은 미미했음을 주장한다.

Methodology

Ablation Benchmarks: 저자들은 일련의 전형적인 구조적 변형(예: 어텐션 메커니즘, 정규화 레이어)을 재구현하고 표준 NLP/비전 과제에서 FLOP‑대‑정확도 트레이드오프를 측정했다.
Literature Survey: 2012‑2023년 논문에서 보고된 효율성 이득을 수집하고, 소거 실험에 포함되지 않은 각 혁신에 대한 대략적인 곱셈적 개선을 추출했다.
Scaling Experiments: 동일한 학습 파이프라인을 사용해 LSTM 모델군과 Transformer 모델군을 넓은 계산 예산(10⁹ ~ 10¹⁴ FLOP)에서 학습했다. 각 군에 대해 경험적 계산‑최적 스케일링 법칙 ( \text{Performance} \propto \text{Compute}^{\alpha} )을 피팅하고 지수 ( \alpha_{\text{LSTM}} )와 ( \alpha_{\text{Transformer}} )를 비교했다.
Extrapolation: 측정된 스케일링 지수를 계산 예산의 역사적 성장과 통합함으로써 LSTM→Transformer 전환에 기인한 누적 효율성 이득을 추정했다.

모든 실험은 공개된 하드웨어(GPU 클러스터)에서 수행되었으며, 재현성을 위해 코드가 공개된다.

Results & Findings

Aspect	Finding
Static algorithmic gains	소거 실험에서 < 10배, 문헌 조사에서 < 10배, 총합 < 100배.
Scaling exponent difference	LSTM: ( \alpha \approx 0.45 ); Transformer: ( \alpha \approx 0.65 ). 높은 지수는 모델이 커질수록 추가 FLOP당 더 많은 성능을 얻는다는 의미다.
Cumulative efficiency	계산 예산이 기하급수적으로 성장(≈ 10⁴배, 2012‑2023)함에 따라 Transformer의 스케일 의존 이점은 전체 FLOP‑효율성 향상에 ≈ 6,930배를 기여한다.
Dominant source of progress	LSTM‑to‑Transformer 전환만으로 관측된 효율성 개선의 대부분(> 90%)을 설명한다.
Other innovations	대부분의 다른 구조적 변형(예: 잔차 연결, 어텐션 변형)은 거의 동일한 스케일링 지수를 보여 장기 효율성에 미치는 영향이 미미하다.

Practical Implications

예산 제한 프로젝트를 위한 모델 선택: 대형 모델을 학습할 때는 스케일링 지수가 순수한 구조적 변형보다 더 중요하다. Transformer 기반 계열을 선택하면 LSTM 스타일 설계보다 훨씬 높은 계산 투자 수익을 얻을 수 있다.
하드웨어‑인식 로드맵 계획: 다음 세대 GPU/TPU 등 계산 예산을 예측하는 기업은 알고리즘의 스케일 의존 특성을 고려해야 한다; 하드웨어가 2배 늘어나면 지수가 높은 알고리즘에서는 2배 이상 성능 향상이 가능하다.
벤치마크 표준: 알고리즘을 정적 배수로 취급하는 현재 “FLOP‑효율성” 벤치마크는 개발자를 오도할 수 있다. 계산에 따른 성능(스케일링 곡선)으로 보고하는 것이 보다 실용적인 지표다.
연구 초점: 작은 모델 효율성을 개선하려는 노력(예: 프루닝, 양자화)은 스케일링 지수를 높이지 않는 한 AI 진보 전체 궤도에 제한적인 영향을 미친다.
툴링 및 AutoML: 모델 계열을 탐색하는 AutoML 파이프라인은 대규모 배포 시 더 가파른 지수를 가진 계열을 우선시하도록 스케일링 법칙 예측을 통합해야 한다.

Limitations & Future Work

Task diversity: 스케일링 실험은 주로 언어 모델링과 몇몇 비전 벤치마크에 초점을 맞추었으며, 강화 학습·음성 등 다른 분야는 다른 지수 동역학을 보일 수 있다.
Hardware heterogeneity: 모든 실험이 GPU에서 수행되었으며, 특수 ASIC이나 미래 아키텍처에서는 스케일링 행동이 달라질 수 있다.
Long‑tail innovations: 희소성, mixture‑of‑experts 등 많은 틈새 알고리즘 아이디어는 충분히 탐색되지 않았으며, 극한 계산 수준에서 스케일링에 영향을 줄 수 있다.
Extrapolation risk: 관측된 계산 예산을 훨씬 초과하는 효율성 예측은 스케일링 법칙이 지속된다는 가정에 기반하는데, 신경형 컴퓨팅 등 새로운 패러다임에서는 깨질 수 있다.

향후 연구는 더 다양한 모델 계열에 대한 스케일링 법칙 분석을 확대하고, 하드웨어‑특정 요인을 포함하며, 새로운 알고리즘 방향이 스케일링 지수를 증가시킬 수 있는지 탐구할 수 있다.

Authors

Hans Gundlach
Alex Fogelson
Jayson Lynch
Ana Trisovic
Jonathan Rosenfeld
Anmol Sandhu
Neil Thompson

Paper Information

arXiv ID: 2511.21622v1
Categories: cs.LG, cs.AI
Published: November 26, 2025
PDF: Download PDF

[Paper] AI에서 알고리즘적 진보의 기원에 관하여

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 행동으로 사고하기: Multi‑turn Interaction을 통한 LLM의 Efficient World Model Reasoning 구축

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

[Paper] 진보의 대가: Algorithmic Efficiency와 AI Inference 비용 감소

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출