[Paper] Four Over Six: Adaptive Block Scaling을 이용한 더 정확한 NVFP4 양자화

발행: 3일 전 (2025년 12월 2일 오전 03:59 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.02010v1

개요

논문 “Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling” 은 대규모 언어 모델(LLM) 학습 및 추론에서 초저정밀 NVFP4 포맷으로 모두 강제 변환될 때 발생하는 정확도 손실이라는 심각한 병목 현상을 해결합니다. 블록당 두 개의 스케일 팩터 중 더 나은 것을 선택하는 가벼운 “4/6” 스케일링 방식을 도입함으로써, 저자들은 학습 발산을 크게 감소시키고 BF16에 근접한 정확도 격차를 메우면서도 NVIDIA 최신 Blackwell GPU와 호환성을 유지합니다.

주요 기여

적응형 2‑스케일 블록 양자화 (4/6): 블록당 두 후보 스케일 팩터를 평가하여 표현 가능한 FP4 값들의 분포가 더 균일해지는 스케일을 선택합니다.
거대값에 대한 목표 오류 감소: FP4의 가장 큰 양자화 오류가 블록 내 가장 큰 값에서 발생한다는 것을 보여주고, 더 작은 스케일이 값 분포를 평탄화할 수 있음을 입증합니다.
GPU 친화적 구현: 4/6이 Blackwell‑급 GPU에서 효율적으로 실행될 수 있음을 시연하여 대규모 LLM 학습에 실용성을 부여합니다.
다중 아키텍처에 대한 실증 검증: 순수 트랜스포머와 하이브리드 모델 모두에서 학습 안정성과 최종 손실을 개선하여 BF16‑대‑NVFP4 성능 격차를 좁혔습니다.
사후 양자화 파이프라인과의 광범위한 호환성: 4/6은 기존 양자화 워크플로에 그대로 삽입될 수 있어, 하위 추론 정확도를 일관되게 향상시킵니다.

방법론

블록 단위 분석: 모델의 가중치/활성화 텐서를 작은 블록(예: 64‑원소 그룹)으로 나눕니다.
두 후보 스케일: 각 블록에 대해 표준 NVFP4 스케일과 동적 범위를 축소하는 두 번째, 더 작은 스케일을 계산합니다.
오류 메트릭: 두 스케일 모두에 대해 양자화 오류(특히 블록 내 가장 큰 값)를 평가하고, 표현 가능한 FP4 숫자의 분포가 더 고르게 되는 스케일을 선택합니다.
하드웨어 매핑: 선택 로직을 몇 개의 추가 CUDA 커널로 구현하여 Blackwell GPU의 기존 matmul 커널과 병행 실행하고, 오버헤드를 무시할 수준으로 유지합니다.
학습 및 평가: 저자들은 트랜스포머형 LLM과 하이브리드 모델에 대해 전체 사전 학습을 수행하고, 표준 NVFP4 레시피, 새로운 4/6 방법, 그리고 BF16 기준을 비교합니다.

결과 및 발견

설정	BF16 (baseline)	표준 NVFP4	NVFP4 + 4/6
트랜스포머 사전 학습 (손실)	1.85	2.47 (2/5 실행에서 발산)	1.92 (발산 없음)
하이브리드 모델 (손실)	1.78	2.31 (불안정)	1.80
사후 훈련 양자화 (정확도 감소)	–	–5.3 %	–2.1 %

학습 안정성: 4/6은 기존 NVFP4에서 흔히 발생하던 발산 사례를 제거하여 손실 궤적을 BF16의 2 % 이내로 유지합니다.
추론 품질: 학습 후 적용했을 때, 4/6은 표준 NVFP4 양자화 대비 절대 정확도를 2–3 % 회복합니다.
성능 오버헤드: 추가 스케일 선택 단계는 Blackwell GPU에서 실행 시간에 < 3 %만 증가시키며, FP4 사용에 따른 메모리·연산 절감 효과가 이를 크게 상회합니다.

실용적 함의

비용 효율적인 LLM 학습: 팀은 이제 NVFP4를 사용해 수십억 파라미터 모델을 학습하면서도 손실 폭주에 대한 두려움 없이 GPU 메모리 사용량을 약 75 % 절감하고 처리량을 높일 수 있습니다.
빠른 추론 배포: 4/6은 사후 훈련 단계에 바로 적용할 수 있어, 기존 FP4 추론 파이프라인을 최소한의 엔지니어링 노력으로 정확도 향상 버전으로 업그레이드할 수 있습니다.
하드웨어 정렬: 이 방법은 NVIDIA Blackwell 아키텍처에 최적화되어 있어, Blackwell 인스턴스를 제공하는 클라우드 공급자(AWS, Azure 등)에서 즉시 이점을 얻을 수 있습니다.
오픈소스 잠재력: 알고리즘이 단순(블록당 두 스케일 후보만)하므로 TensorRT, Hugging Face Transformers, DeepSpeed와 같은 인기 양자화 라이브러리에 쉽게 통합될 수 있습니다.

제한 사항 및 향후 연구

GPU 특화: 현재 구현은 Blackwell‑전용 커널에 의존하므로 구형 아키텍처에서는 성능이 낮아지거나 재구현이 필요할 수 있습니다.
블록 크기 민감도: 논문은 고정된 블록 입자를 탐색했으며, 블록 크기를 동적으로 조정하면 정확도가 더 개선될 수 있지만 복잡도가 증가합니다.
FP4 외 확장: 저자들은 4/6 원리를 다른 초저정밀 포맷(예: INT4)에도 적용할 수 있다고 언급했으며, 이는 향후 연구의 유망한 방향입니다.
전규모 프로덕션 테스트: 사전 학습 실험은 설득력 있지만, 수십억 건의 쿼리를 처리하는 대규모 프로덕션 워크로드에 대한 벤치마크는 아직 진행되지 않았습니다.

핵심 요약: Four Over Six는 NVFP4를 대규모 언어 모델의 학습 및 배포에 실용적인 옵션으로 만들기 위한 하드웨어 인식형 조정으로, 극한 효율성과 허용 가능한 정확도 사이의 격차를 메워줍니다.

저자

Jack Cook
Junxian Guo
Guangxuan Xiao
Yujun Lin
Song Han

논문 정보

arXiv ID: 2512.02010v1
Categories: cs.CL, cs.LG
Published: December 1, 2025
PDF: Download PDF

[Paper] Four Over Six: Adaptive Block Scaling을 이용한 더 정확한 NVFP4 양자화

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] DraCo: Draft as CoT for Text-to-Image 미리보기 및 희귀 개념 생성

[Paper] Semantic Soft Bootstrapping: LLMs에서 Reinforcement Learning 없이 긴 컨텍스트 추론

[Paper] 구조화된 문서 번역을 위한 포맷 강화 학습

[Paper] Multi-LLM 협업을 통한 약물 추천