구형 AMD RX 580(8GB)에서 네이티브 Vulkan으로 Flux Schnell(12B)+LLM 실행 — 전체 아키텍처 가이드 [2026]

발행: (2026년 5월 23일 AM 03:09 GMT+9)
4 분 소요
원문: Dev.to

출처: Dev.to

대부분의 사람들은 2026년에 RX 580이 AI용으로는 죽었다는 말을 들었습니다. CUDA 전용 생태계, ROCm이 v5.x에서 폴라리스를 지원 중단, DirectML은 성숙하기도 전에 포기되었습니다. 여기서는 우리가 그 말을 틀렸음을 증명한 전체 기술 분석을 제공합니다.
GPU: AMD RX 580 2048SP — 8 GB GDDR5 VRAM (Vulkan 1.x 네이티브)
CPU: Intel Xeon E5‑2690 v3 — 12코어/24스레드 @ 3.5 GHz 부스트
RAM: 32 GB DDR4 REG ECC 쿼드 채널
스토리지: NVMe 1 TB — 병목 현상 해결 핵심

OS: Windows 10 Pro + WSL2 Ubuntu 22.04.5

해결책

상태이유
CUDANvidia 전용
ROCmv5.x에서 폴라리스를 중단
DirectMLCLIPTextEncode에서 OpaqueTensorImpl 충돌
OpenVINOForge에서 ldm/sgm 모듈 누락

NotImplementedError: OpaqueTensorImpl의 스토리지에 접근할 수 없습니다.

드라이버가 메모리를 불투명 텐서로 감싸기 때문에 ComfyUI의 어텐션 백엔드가 이를 읽을 수 없습니다. 이는 막다른 길입니다.

stable-diffusion.cpp-DGGML_VULKAN=ON 옵션으로 네이티브 빌드했습니다. ggml 엔진은 ROCm이나 CUDA 없이 GPU에 직접 매핑됩니다. SD 1.5 GGUF 모델은 약 72초에 렌더링됩니다.

FLUX.1 Schnell을 16 GB로 실행하면 물리 VRAM을 초과합니다. ComfyUI는 WSL2 내부의 CPU에서 실행되며, ECC RAM을 안정적인 가상 VRAM으로 사용합니다. 전체 768×768 생성은 약 24분이 소요됩니다.

구성 요소

파일할당 크기
Diffusion Model
flux1-schnell-q4_k.gguf
GPU VRAM 약 6.5 GB
VAE
ae.safetensors
CPU RAM 약 160 MB
CLIP L
clip_l.safetensors
GPU VRAM 약 235 MB
T5XXL
t5xxl_fp16.safetensors
CPU RAM 약 9.3 GB
sd-server.exe --listen-ip 0.0.0.0 --listen-port 7860 ^
  --diffusion-model "E:\models\flux1-schnell-q4_k.gguf" ^
  --vae "E:\models\ae.safetensors" ^
  --clip_l "E:\models\clip_l.safetensors" ^
  --t5xxl "E:\models\t5xxl_fp16.safetensors" ^
  --cfg-scale 1.0 --steps 4 --clip-on-cpu --vae-on-cpu --vae-tiling

--vae-on-cpu--vae-tiling은 절대 제외할 수 없습니다. 이 옵션 없이 실행하면 즉시 DeviceMemoryAllocation 충돌이 발생합니다.

워크로드

백엔드결과
LLM 텍스트 추론
CPU 전용
3–5 tokens/s ❌
LLM 텍스트 추론
RX 580 Vulkan
15–16 tokens/s ✅
SD 1.5 20 스텝
DirectML
~450 s + 충돌 ❌
SD 1.5 20 스텝
Vulkan 네이티브
~72 s ✅
Flux 1024×1024
Xeon CPU WSL2
~24 min ✅

NVMe 영향: 모델 로드 시간이 HDD에서는 25분이었지만 NVMe에서는 4분으로 단축되었습니다. Flux 16 GB의 경우 25분에서 30초 정도로 감소했습니다. 스토리지는 계산만큼이나 중요합니다.

OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

전체 문서, .bat 오케스트레이션 스크립트, 컴파일된 바이너리 및 모델 설정은 다음에서 확인할 수 있습니다.
https://setup-ia-local-rx580-vulkan.firebaseapp.com/

하드웨어는 죽지 않습니다. 올바른 소프트웨어가 있으면 해방됩니다. 레거시 AMD 카드를 사용하고 계신가요? 댓글에서 여러분의 버퍼 할당 및 커맨드 큐 지연 시간 결과를 함께 논의해봅시다.

0 조회
Back to Blog

관련 글

더 보기 »

내 스킬

프로젝트를 위한 AI 지시문을 만들고, 설치하고, 관리하세요 — 코딩이 필요 없습니다. CREATE 이름을 정하고, 카테고리를 선택하고, 원하는 것을 설명하세요 — 마법사가 자동으로 구성합니다.