AMD Ryzen AI Max+ 395에서 SAM 3 실행: rocBLAS 오류 해결을 위한 완전 가이드
Source: Dev.to
위의 링크에 포함된 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 기술 용어는 그대로 유지됩니다.)
Introduction
“I’ve been battling with AI (Claude) for 14 hours a day. Couldn’t be happier.”
— Akio Shiki (@ar_akio) – October 20, 2025
안녕하세요, 저는 AI‑개발 스타트업에서 일하고 있는 엔지니어 아키오입니다. 이전 글에서 SAM 3을 소개했었죠. 이번에는 AMD 하드웨어에서 SAM 3을 실행하면서 겪은 함정들을 공유하려 합니다.
우리는 최신 AI 모델과 하드웨어를 지속적으로 테스트합니다. 현재 제 손에 있는 것은 AMD 엔지니어링의 걸작이라 할 수 있는 Ryzen AI Max+ 395입니다.
AMD Official
이 머신의 사양은 솔직히 말해서 미친 수준입니다. 고대역폭 메모리와 강력한 iGPU 덕분에 OpenAI의 gpt‑oss‑120b 같은 거대한 LLM을 로컬에서 실행할 때 진가를 발휘합니다.
하지만 오늘은 그 이야기가 아닙니다.
오늘 다룰 모델은 Meta의 최신 이미지‑세그멘테이션 모델, SAM 3 (Segment Anything Model 3)입니다.
Meta Official
“Wait, SAM 3? Isn’t that lightweight? If you want inference speed, wouldn’t an NVIDIA dGPU be a better fit?”
당신 말이 맞습니다—그 점에 대해서는 이견이 없습니다. Ryzen AI Max+ 395에서 SAM 3을 실행하는 것은, 비유하자면 견과류를 깨기 위해 대형 해머를 사용하는 것과 같습니다.
하지만 저는 상관없습니다. 이유는 간단합니다:
“그냥 AMD 최신 하드웨어에서 가장 핫한 모델을 돌려보고 싶었거든요.”
이 프로젝트는 열정적인 개인 프로젝트이며, 효율성은 뒷전입니다. 제가 마주친 오류와 찾은 해결책은 AMD 사용자라면 누구에게나 유용할 것입니다. 거의 모든 Ryzen AI 사용자가 겪게 될 rocBLAS 오류를 정복하기 위한 결정적인 가이드라고 생각해 주세요.
My Setup
| 구성 요소 | 세부 정보 |
|---|---|
| 운영 체제 | Windows 11 |
| AI 스택 | AMD ROCm (HIP SDK) |
| 프레임워크 | PyTorch (ROCm 빌드) |
| 모델 | SAM 3 |
| 하드웨어 | Ryzen AI Max+ 395 (gfx1151) |
환경은 문제 없이 설치되었습니다. 그 후 추론 스크립트를 실행했지만, 무자비한 오류 로그가 쏟아졌습니다.
rocBLAS error: TensileLibrary.dat not found
What the error means
“GPU(gfx1151)에 대한 연산 라이브러리를 찾을 수 없어서 계산을 수행할 수 없습니다.”
Ryzen AI Max+ 395는 최신 아키텍처를 사용하기 때문에, 공식 라이브러리들이 아직 경로 설정을 완전히 따라잡지 못한 경우가 많습니다—새로 출시된 하드웨어에서 흔히 겪는 이야기입니다.
The First (Failed) Work‑around
AMD 커뮤니티에서는 일반적으로 환경 변수를 위조하여 시스템이 GPU를 호환 가능한 구형 모델(gfx1100)이라고 인식하도록 합니다.
$env:HSA_OVERRIDE_GFX_VERSION = "11.0.0"
이렇게 하면 모든 문제가 해결될 것이라 기대했지만… 오류는 여전히 지속되었고, 다음 경로 아래의 파일을 찾고 있었습니다:
site-packages\_rocm_sdk_libraries_gfx1151\bin
Digging Deeper
Google, GitHub Issues, Reddit 스레드 등을 모두 뒤진 뒤(실질적인 결과는 거의 없었음) 로컬 라이브러리 폴더를 직접 확인하기로 했습니다.
What I found
PyTorch ROCm 설치 폴더에 예상치 못한 디렉터리가 있었습니다:
.../site-packages/_rocm_sdk_libraries_custom/
그 안에는:
.../_rocm_sdk_libraries_custom/bin/rocblas/library/
누락된 파일들을 발견했습니다:
gfx1151‑related files
TensileLibrary_lazy_gfx1151.dat
Key insight:
RDNA 3.5 라이브러리 파일은 이미 존재했지만, PyTorch는 _rocm_sdk_libraries_gfx1151이라는 폴더를 찾고 있었습니다. 실제 파일은 _rocm_sdk_libraries_custom 아래에 있었던 것이죠. 따라서 “폴더 구조 불일치”가 원인이었습니다.
The Fix – Step‑by‑Step
Goal: PyTorch가 기대하는 폴더 구조를 복제하고 기존 파일을 그곳에 배치합니다.
-
소스 파일 찾기
\site-packages\_rocm_sdk_libraries_custom\bin\rocblas\library -
해당 디렉터리에서 모든 파일(
*.dat,*.hsaco등)을 복사합니다. -
예상되는 계층 구조 만들기
\site-packages\_rocm_sdk_libraries_gfx1151\bin\_rocm_sdk_libraries_gfx1151폴더가 없으면 생성합니다.- 그 안에
bin하위 폴더를 만듭니다.
-
복사한 파일들을 새로 만든
bin폴더에 붙여넣기합니다. -
Tensile 라이브러리 이름 바꾸기 (선택 사항이지만 권장)
TensileLibrary_lazy_gfx1151.dat파일을 복제합니다.- 복제본의 이름을
TensileLibrary.dat로 바꿉니다.
이는 일부 스크립트가 기대하는 명명 규칙을 맞추는 작업입니다.
Visual Summary
\site-packages
│
├─ _rocm_sdk_libraries_custom
│ └─ bin
│ └─ rocblas
│ └─ library
│ ├─ TensileLibrary_lazy_gfx1151.dat
│ └─ … (other .dat/.hsaco files)
│
└─ _rocm_sdk_libraries_gfx1151
└─ bin
├─ TensileLibrary_lazy_gfx1151.dat
├─ TensileLibrary.dat ← 위 파일의 복제본
└─ … (all other files pasted here)
결과
스크립트를 다시 실행하면 깨끗한 로그가 출력되었습니다:
[INFO] Device: cuda (PyTorch fallback label)
[INFO] Inference completed successfully.
VRAM usage: 7 GB
Single‑image inference time: ~8 s
Note: “cuda” 라벨은 단지 PyTorch의 기본 문자열일 뿐이며, CUDA가 아닌 장치에서도 나타납니다.
통합 GPU가 부드럽게 작동하면서 이미지당 약 8초의 추론 시간을 보여주었습니다— SAM 3 같은 경량 모델에 충분히 허용 가능한 수준입니다. 실시간 비디오 처리에는 아직 한계가 있습니다(고성능 NVIDIA GPU가 있으면 좋겠지만), 이번 실험을 통해 최신 이미지 모델도 AMD 하드웨어에서 실행될 수 있음을 입증했습니다.
요약
- 폴더‑구조 불일치가 누락‑라이브러리 오류처럼 보일 수 있습니다.
- AMD ROCm 생태계는 공식 지원이 나오기 전에 “custom” 경로에 필요한 바이너리를 제공할 수 있습니다.
- 예상 디렉터리 구조를 만들고 파일을 복사하면 Ryzen AI 300 시리즈 GPU(gfx1151)에서
rocBLAS error: TensileLibrary.dat not found오류가 해결됩니다.
이 수정을 향후 공식 라이브러리가 뒤처지는 AMD 하드웨어 출시에도 자유롭게 적용하세요.
행복한 해킹 되세요, 그리고 GPU가 항상 필요한 라이브러리를 찾길 바랍니다!
강력한 하드웨어인 Ryzen AI Max+ 395는 소프트웨어 생태계(특히 Windows ROCm)가 하드웨어 진화에 아직 따라가지 못하는 전환기입니다. 하지만 이 사례가 보여주듯, “파일은 존재하지만 경로가 올바르게 설정되지 않은” 상황이 많이 있습니다.
포기하지 말고 디렉터리를 살펴보면 해결책을 찾을 수 있습니다.
같은 오류로 고민하는 모든 AMD 사용자에게: 이 **“폴더 이식 수술”**을 시도해 보세요. 편안하고 (조금 과도하게) 강력한 로컬 AI 모험을 기원합니다!
이 기사에 대한 피드백이나 **“진정으로 무거운 모델”**에 대한 요청이 있으면 아래에 댓글을 남겨 주세요!
다음에는 SAM 3을 IoT 카메라(ESP32‑기반)와 결합하는 내용으로 포스팅할 예정이니 기대해 주세요!