[Paper] Four Over Six: Adaptive Block Scaling을 이용한 더 정확한 NVFP4 양자화
Source: arXiv - 2512.02010v1
개요
논문 “Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling” 은 대규모 언어 모델(LLM) 학습 및 추론에서 초저정밀 NVFP4 포맷으로 모두 강제 변환될 때 발생하는 정확도 손실이라는 심각한 병목 현상을 해결합니다. 블록당 두 개의 스케일 팩터 중 더 나은 것을 선택하는 가벼운 “4/6” 스케일링 방식을 도입함으로써, 저자들은 학습 발산을 크게 감소시키고 BF16에 근접한 정확도 격차를 메우면서도 NVIDIA 최신 Blackwell GPU와 호환성을 유지합니다.
주요 기여
- 적응형 2‑스케일 블록 양자화 (4/6): 블록당 두 후보 스케일 팩터를 평가하여 표현 가능한 FP4 값들의 분포가 더 균일해지는 스케일을 선택합니다.
- 거대값에 대한 목표 오류 감소: FP4의 가장 큰 양자화 오류가 블록 내 가장 큰 값에서 발생한다는 것을 보여주고, 더 작은 스케일이 값 분포를 평탄화할 수 있음을 입증합니다.
- GPU 친화적 구현: 4/6이 Blackwell‑급 GPU에서 효율적으로 실행될 수 있음을 시연하여 대규모 LLM 학습에 실용성을 부여합니다.
- 다중 아키텍처에 대한 실증 검증: 순수 트랜스포머와 하이브리드 모델 모두에서 학습 안정성과 최종 손실을 개선하여 BF16‑대‑NVFP4 성능 격차를 좁혔습니다.
- 사후 양자화 파이프라인과의 광범위한 호환성: 4/6은 기존 양자화 워크플로에 그대로 삽입될 수 있어, 하위 추론 정확도를 일관되게 향상시킵니다.
방법론
- 블록 단위 분석: 모델의 가중치/활성화 텐서를 작은 블록(예: 64‑원소 그룹)으로 나눕니다.
- 두 후보 스케일: 각 블록에 대해 표준 NVFP4 스케일과 동적 범위를 축소하는 두 번째, 더 작은 스케일을 계산합니다.
- 오류 메트릭: 두 스케일 모두에 대해 양자화 오류(특히 블록 내 가장 큰 값)를 평가하고, 표현 가능한 FP4 숫자의 분포가 더 고르게 되는 스케일을 선택합니다.
- 하드웨어 매핑: 선택 로직을 몇 개의 추가 CUDA 커널로 구현하여 Blackwell GPU의 기존 matmul 커널과 병행 실행하고, 오버헤드를 무시할 수준으로 유지합니다.
- 학습 및 평가: 저자들은 트랜스포머형 LLM과 하이브리드 모델에 대해 전체 사전 학습을 수행하고, 표준 NVFP4 레시피, 새로운 4/6 방법, 그리고 BF16 기준을 비교합니다.
결과 및 발견
| 설정 | BF16 (baseline) | 표준 NVFP4 | NVFP4 + 4/6 |
|---|---|---|---|
| 트랜스포머 사전 학습 (손실) | 1.85 | 2.47 (2/5 실행에서 발산) | 1.92 (발산 없음) |
| 하이브리드 모델 (손실) | 1.78 | 2.31 (불안정) | 1.80 |
| 사후 훈련 양자화 (정확도 감소) | – | –5.3 % | –2.1 % |
- 학습 안정성: 4/6은 기존 NVFP4에서 흔히 발생하던 발산 사례를 제거하여 손실 궤적을 BF16의 2 % 이내로 유지합니다.
- 추론 품질: 학습 후 적용했을 때, 4/6은 표준 NVFP4 양자화 대비 절대 정확도를 2–3 % 회복합니다.
- 성능 오버헤드: 추가 스케일 선택 단계는 Blackwell GPU에서 실행 시간에 < 3 %만 증가시키며, FP4 사용에 따른 메모리·연산 절감 효과가 이를 크게 상회합니다.
실용적 함의
- 비용 효율적인 LLM 학습: 팀은 이제 NVFP4를 사용해 수십억 파라미터 모델을 학습하면서도 손실 폭주에 대한 두려움 없이 GPU 메모리 사용량을 약 75 % 절감하고 처리량을 높일 수 있습니다.
- 빠른 추론 배포: 4/6은 사후 훈련 단계에 바로 적용할 수 있어, 기존 FP4 추론 파이프라인을 최소한의 엔지니어링 노력으로 정확도 향상 버전으로 업그레이드할 수 있습니다.
- 하드웨어 정렬: 이 방법은 NVIDIA Blackwell 아키텍처에 최적화되어 있어, Blackwell 인스턴스를 제공하는 클라우드 공급자(AWS, Azure 등)에서 즉시 이점을 얻을 수 있습니다.
- 오픈소스 잠재력: 알고리즘이 단순(블록당 두 스케일 후보만)하므로 TensorRT, Hugging Face Transformers, DeepSpeed와 같은 인기 양자화 라이브러리에 쉽게 통합될 수 있습니다.
제한 사항 및 향후 연구
- GPU 특화: 현재 구현은 Blackwell‑전용 커널에 의존하므로 구형 아키텍처에서는 성능이 낮아지거나 재구현이 필요할 수 있습니다.
- 블록 크기 민감도: 논문은 고정된 블록 입자를 탐색했으며, 블록 크기를 동적으로 조정하면 정확도가 더 개선될 수 있지만 복잡도가 증가합니다.
- FP4 외 확장: 저자들은 4/6 원리를 다른 초저정밀 포맷(예: INT4)에도 적용할 수 있다고 언급했으며, 이는 향후 연구의 유망한 방향입니다.
- 전규모 프로덕션 테스트: 사전 학습 실험은 설득력 있지만, 수십억 건의 쿼리를 처리하는 대규모 프로덕션 워크로드에 대한 벤치마크는 아직 진행되지 않았습니다.
핵심 요약: Four Over Six는 NVFP4를 대규모 언어 모델의 학습 및 배포에 실용적인 옵션으로 만들기 위한 하드웨어 인식형 조정으로, 극한 효율성과 허용 가능한 정확도 사이의 격차를 메워줍니다.
저자
- Jack Cook
- Junxian Guo
- Guangxuan Xiao
- Yujun Lin
- Song Han
논문 정보
- arXiv ID: 2512.02010v1
- Categories: cs.CL, cs.LG
- Published: December 1, 2025
- PDF: Download PDF