구형 AMD RX 580(8GB)에서 네이티브 Vulkan으로 Flux Schnell(12B)+LLM 실행 — 전체 아키텍처 가이드 [2026]
출처: Dev.to
대부분의 사람들은 2026년에 RX 580이 AI용으로는 죽었다는 말을 들었습니다. CUDA 전용 생태계, ROCm이 v5.x에서 폴라리스를 지원 중단, DirectML은 성숙하기도 전에 포기되었습니다. 여기서는 우리가 그 말을 틀렸음을 증명한 전체 기술 분석을 제공합니다.
GPU: AMD RX 580 2048SP — 8 GB GDDR5 VRAM (Vulkan 1.x 네이티브)
CPU: Intel Xeon E5‑2690 v3 — 12코어/24스레드 @ 3.5 GHz 부스트
RAM: 32 GB DDR4 REG ECC 쿼드 채널
스토리지: NVMe 1 TB — 병목 현상 해결 핵심
OS: Windows 10 Pro + WSL2 Ubuntu 22.04.5
해결책
| 상태 | 이유 |
|---|---|
| CUDA ❌ | Nvidia 전용 |
| ROCm ❌ | v5.x에서 폴라리스를 중단 |
| DirectML ❌ | CLIPTextEncode에서 OpaqueTensorImpl 충돌 |
| OpenVINO ❌ | Forge에서 ldm/sgm 모듈 누락 |
NotImplementedError: OpaqueTensorImpl의 스토리지에 접근할 수 없습니다.
드라이버가 메모리를 불투명 텐서로 감싸기 때문에 ComfyUI의 어텐션 백엔드가 이를 읽을 수 없습니다. 이는 막다른 길입니다.
stable-diffusion.cpp를 -DGGML_VULKAN=ON 옵션으로 네이티브 빌드했습니다. ggml 엔진은 ROCm이나 CUDA 없이 GPU에 직접 매핑됩니다. SD 1.5 GGUF 모델은 약 72초에 렌더링됩니다.
FLUX.1 Schnell을 16 GB로 실행하면 물리 VRAM을 초과합니다. ComfyUI는 WSL2 내부의 CPU에서 실행되며, ECC RAM을 안정적인 가상 VRAM으로 사용합니다. 전체 768×768 생성은 약 24분이 소요됩니다.
구성 요소
| 파일 | 할당 크기 |
|---|---|
| Diffusion Model flux1-schnell-q4_k.gguf | GPU VRAM 약 6.5 GB |
| VAE ae.safetensors | CPU RAM 약 160 MB |
| CLIP L clip_l.safetensors | GPU VRAM 약 235 MB |
| T5XXL t5xxl_fp16.safetensors | CPU RAM 약 9.3 GB |
sd-server.exe --listen-ip 0.0.0.0 --listen-port 7860 ^
--diffusion-model "E:\models\flux1-schnell-q4_k.gguf" ^
--vae "E:\models\ae.safetensors" ^
--clip_l "E:\models\clip_l.safetensors" ^
--t5xxl "E:\models\t5xxl_fp16.safetensors" ^
--cfg-scale 1.0 --steps 4 --clip-on-cpu --vae-on-cpu --vae-tiling
--vae-on-cpu와 --vae-tiling은 절대 제외할 수 없습니다. 이 옵션 없이 실행하면 즉시 DeviceMemoryAllocation 충돌이 발생합니다.
워크로드
| 백엔드 | 결과 |
|---|---|
| LLM 텍스트 추론 CPU 전용 | 3–5 tokens/s ❌ |
| LLM 텍스트 추론 RX 580 Vulkan | 15–16 tokens/s ✅ |
| SD 1.5 20 스텝 DirectML | ~450 s + 충돌 ❌ |
| SD 1.5 20 스텝 Vulkan 네이티브 | ~72 s ✅ |
| Flux 1024×1024 Xeon CPU WSL2 | ~24 min ✅ |
NVMe 영향: 모델 로드 시간이 HDD에서는 25분이었지만 NVMe에서는 4분으로 단축되었습니다. Flux 16 GB의 경우 25분에서 30초 정도로 감소했습니다. 스토리지는 계산만큼이나 중요합니다.
OpenWebUI Docker :3000
├── llama-server.exe :8081 (Vulkan — RX 580)
├── sd-server.exe :7860 (Vulkan — RX 580)
└── ComfyUI :8188 (CPU — Xeon WSL2)
전체 문서, .bat 오케스트레이션 스크립트, 컴파일된 바이너리 및 모델 설정은 다음에서 확인할 수 있습니다.
https://setup-ia-local-rx580-vulkan.firebaseapp.com/
하드웨어는 죽지 않습니다. 올바른 소프트웨어가 있으면 해방됩니다. 레거시 AMD 카드를 사용하고 계신가요? 댓글에서 여러분의 버퍼 할당 및 커맨드 큐 지연 시간 결과를 함께 논의해봅시다.