ComfyUI NVFP4 2026년 버전: RTX 50 시리즈에서 이미지 생성 3배 가속 (RTX 40 시리즈용 최적 포맷)
출처: Dev.to
이 글은 원래 runaihome.com에 게시되었습니다.
요약: NVFP4는 Blackwell 전용 양자화 포맷으로, FLUX 1 Dev를 7.73 it/s까지 끌어올립니다 — GGUF Q8보다 118 % 빠르고 FP8 Scaled보다 84 % 빠르면서 VRAM을 26 GB(BF16)에서 14 GB로 절감합니다. 단점은 CUDA 13.0과 RTX 50‑시리즈 GPU가 필요하다는 점입니다. RTX 40‑시리즈에서는 NVFP4가 속도 향상을 제공하지 않으며, 올바른 PyTorch 빌드가 없을 경우 FP8보다 2배 느릴 수 있습니다. RTX 40‑시리즈 사용자는 FP8 Scaled를 대신 사용해야 합니다.
| RTX 50‑시리즈 + NVFP4 | RTX 40/30‑시리즈 + FP8 Scaled | RTX 40/30‑시리즈 + BF16 | |
|---|---|---|---|
| 최적 활용 | Blackwell에서 최대 처리량 | Ada/Ampere에서 속도 + 품질 | 품질 손실 없이 완전 충실도 |
| FLUX 1 Dev 속도 | 7.73 it/s | 4.21 it/s | 4.53 it/s |
| VRAM (FLUX SRPO) | 14 GB | ~17 GB | 26 GB |
| 제한 사항 | RTX 50‑시리즈 전용, CUDA 13 필요 | 30‑시리즈에서는 하드웨어 FP8 가속 없음 | 24 GB 이상 카드 필수 |
솔직한 평가: RTX 50‑시리즈 카드를 보유하고 있다면, PyTorch cu130과 함께 NVFP4를 사용하는 것이 가장 큰 효과를 주는 설정 변경입니다 — 설정에 7분 정도만 투자하면 즉시 거의 2배 빠른 이미지 생성이 가능합니다. RTX 40‑시리즈라면 NVFP4를 완전히 건너뛰고 FP8 Scaled 체크포인트를 사용하세요. 이는 VRAM을 40 % 절감하면서 거의 동일한 품질을 제공합니다.
NVFP4는 NVIDIA가 Blackwell 아키텍처와 함께 도입한 자체 4‑bit 부동소수점 양자화 포맷입니다. GGUF Q4, NF4, bitsandbytes FP4와는 다르며, 후자들은 어떤 하드웨어에서도 소프트웨어 에뮬레이션에 의존합니다. NVFP4는 Blackwell의 sm120 아키텍처에 내장된 5세대 Tensor Core의 전용 FP4 명령어를 활용해 실리콘 수준에서 연산이 수행됩니다.
이 포맷은 두 단계 스케일링 방식을 사용합니다: 텐서당 전역 스케일 팩터와 블록당 스케일 팩터. 이는 단순 4‑bit 절단보다 동적 범위를 더 잘 보존하므로, 공격적인 압축에도 불구하고 대부분의 FLUX 워크플로우에서 품질 저하가 최소화됩니다.
RTX 40‑시리즈(Ada Lovelace, sm89)에는 FP8 Tensor Core는 있지만 FP4 데이터 경로가 없습니다. RTX 4090에서도 NVFP4를 로드할 수는 있지만, 네이티브 FP4 가속이 없으므로 PyTorch가 소프트웨어 에뮬레이션으로 전환합니다. 그래서 NVIDIA가 “PyTorch cu130 없이 NVFP4를 실행하면 FP8보다 최대 2배 느릴 수 있다”고 명시한 것입니다. 이는 잘못된 설정이 아니라, FP8 전용 하드웨어에서 FP4 연산을 에뮬레이션할 때 기대되는 동작입니다.
Furkan Gözükara의 FLUX 정밀도 비교 벤치마크 (RTX 5090, CUDA 13, 2048 px, Quality 1 preset) – FLUX 1 Dev
| 포맷 | 속도 (it/s) | GGUF Q8 대비 |
|---|---|---|
| NVFP4 | 7.73 | +118 % |
| BF16 | 4.53 | +28 % |
| FP8 Scaled | 4.21 | +19 % |
| GGUF Q8 (기준) | 3.54 | — |
같은 하드웨어에서 FLUX SRPO를 실행했을 때: NVFP4는 40 step을 5.7 초에 처리하며 VRAM 14 GB를 사용합니다. BF16은 동일 작업에 26 GB를 요구해 VRAM 사용량이 46 % 감소합니다.
GPU별 FP8 Dev 원시 생성 시간 (ComfyUI GitHub 벤치마크, 20 step, 표준 워크플로)
| GPU | 시간 (s) | 속도 (it/s) |
|---|---|---|
| RTX 5090 | 5.46 | 3.66 |
| RTX 5080 | 6.67 | 3.23 |
| RTX 5060 Ti | 25.71 | 1.20 |
| RTX 4090 | 11.28 | 1.85 |
| RTX 3090 | ~26 | ~0.77 |
적절히 구성된 RTX 5090에서 NVFP4를 사용하면 FLUX Dev의 생성 시간이 FP8 기준 5.46 초에서 약 2.6–3.0 초로 단축됩니다 — NVIDIA가 공개한 “RTX 5090에서 FP4로 5 초”라는 수치와 일치합니다. 반면 RTX 4090은 FP8 기준 11.28 초로, NVFP4를 사용하는 Blackwell 중급 카드보다 여전히 2배 정도 느립니다.
모든 RTX 50‑시리즈 카드(예: 예산형 RTX 5060 Ti 16 GB 포함)는 Blackwell sm120 Tensor Core와 네이티브 FP4 하드웨어를 탑재하고 있습니다. 따라서 NVFP4는 해당 카드에서 가장 자연스러운 포맷이며, FP8 대비 약 84 % 빠른 속도와 의미 있는 VRAM 절감 효과를 제공합니다. 단, 이를 활용하려면 CUDA 13이 포함된 PyTorch