구형 AMD RX 580(8GB)에서 네이티브 Vulkan으로 Flux Schnell(12B)+LLM 실행 — 전체 아키텍처 가이드 [2026]

발행: 2주 전 (2026년 5월 23일 AM 03:09 GMT+9)

4 분 소요

출처: Dev.to

대부분의 사람들은 2026년에 RX 580이 AI용으로는 죽었다는 말을 들었습니다. CUDA 전용 생태계, ROCm이 v5.x에서 폴라리스를 지원 중단, DirectML은 성숙하기도 전에 포기되었습니다. 여기서는 우리가 그 말을 틀렸음을 증명한 전체 기술 분석을 제공합니다.
GPU: AMD RX 580 2048SP — 8 GB GDDR5 VRAM (Vulkan 1.x 네이티브)
CPU: Intel Xeon E5‑2690 v3 — 12코어/24스레드 @ 3.5 GHz 부스트
RAM: 32 GB DDR4 REG ECC 쿼드 채널
스토리지: NVMe 1 TB — 병목 현상 해결 핵심

OS: Windows 10 Pro + WSL2 Ubuntu 22.04.5

해결책

상태	이유
CUDA ❌	Nvidia 전용
ROCm ❌	v5.x에서 폴라리스를 중단
DirectML ❌	CLIPTextEncode에서 OpaqueTensorImpl 충돌
OpenVINO ❌	Forge에서 ldm/sgm 모듈 누락

NotImplementedError: OpaqueTensorImpl의 스토리지에 접근할 수 없습니다.

드라이버가 메모리를 불투명 텐서로 감싸기 때문에 ComfyUI의 어텐션 백엔드가 이를 읽을 수 없습니다. 이는 막다른 길입니다.

stable-diffusion.cpp를 -DGGML_VULKAN=ON 옵션으로 네이티브 빌드했습니다. ggml 엔진은 ROCm이나 CUDA 없이 GPU에 직접 매핑됩니다. SD 1.5 GGUF 모델은 약 72초에 렌더링됩니다.

FLUX.1 Schnell을 16 GB로 실행하면 물리 VRAM을 초과합니다. ComfyUI는 WSL2 내부의 CPU에서 실행되며, ECC RAM을 안정적인 가상 VRAM으로 사용합니다. 전체 768×768 생성은 약 24분이 소요됩니다.

구성 요소

파일	할당 크기
Diffusion Model flux1-schnell-q4_k.gguf	GPU VRAM 약 6.5 GB
VAE ae.safetensors	CPU RAM 약 160 MB
CLIP L clip_l.safetensors	GPU VRAM 약 235 MB
T5XXL t5xxl_fp16.safetensors	CPU RAM 약 9.3 GB

sd-server.exe --listen-ip 0.0.0.0 --listen-port 7860 ^
  --diffusion-model "E:\models\flux1-schnell-q4_k.gguf" ^
  --vae "E:\models\ae.safetensors" ^
  --clip_l "E:\models\clip_l.safetensors" ^
  --t5xxl "E:\models\t5xxl_fp16.safetensors" ^
  --cfg-scale 1.0 --steps 4 --clip-on-cpu --vae-on-cpu --vae-tiling

--vae-on-cpu와 --vae-tiling은 절대 제외할 수 없습니다. 이 옵션 없이 실행하면 즉시 DeviceMemoryAllocation 충돌이 발생합니다.

워크로드

백엔드	결과
LLM 텍스트 추론 CPU 전용	3–5 tokens/s ❌
LLM 텍스트 추론 RX 580 Vulkan	15–16 tokens/s ✅
SD 1.5 20 스텝 DirectML	~450 s + 충돌 ❌
SD 1.5 20 스텝 Vulkan 네이티브	~72 s ✅
Flux 1024×1024 Xeon CPU WSL2	~24 min ✅

NVMe 영향: 모델 로드 시간이 HDD에서는 25분이었지만 NVMe에서는 4분으로 단축되었습니다. Flux 16 GB의 경우 25분에서 30초 정도로 감소했습니다. 스토리지는 계산만큼이나 중요합니다.

OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

전체 문서, .bat 오케스트레이션 스크립트, 컴파일된 바이너리 및 모델 설정은 다음에서 확인할 수 있습니다.
https://setup-ia-local-rx580-vulkan.firebaseapp.com/

하드웨어는 죽지 않습니다. 올바른 소프트웨어가 있으면 해방됩니다. 레거시 AMD 카드를 사용하고 계신가요? 댓글에서 여러분의 버퍼 할당 및 커맨드 큐 지연 시간 결과를 함께 논의해봅시다.

구형 AMD RX 580(8GB)에서 네이티브 Vulkan으로 Flux Schnell(12B)+LLM 실행 — 전체 아키텍처 가이드 [2026]

해결책

구성 요소

워크로드

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모