SAM 3이 여기 있습니다: Meta의 최신 Vision AI가 이제 당신의 말을 이해합니다
Source: Dev.to
SAM lineage
SAM 1 (2023)
- 클릭이나 바운딩 박스를 사용해 어떤 객체든 제로샷으로 분할하는 모델.
SAM 2 (2024)
- 비디오 지원이 추가되어 프레임 간 객체 추적이 가능해짐.
SAM 3 (2025)
- 네이티브 텍스트 프롬프트 이해와 3D 재구성 기능이 도입됨.
What’s new in SAM 3
- Text‑prompt segmentation – “red car”, “yellow school bus”, “impala”와 같이 원하는 객체를 설명하면 모델이 자동으로 객체를 감지·마스크·추적합니다.
- Unified image‑video backbone – 공유 비전 인코더가 개별 프레임을 처리하면서 시간적 일관성을 유지해 별도의 탐지·추적 파이프라인이 필요하지 않습니다.
- 3D reconstruction (“SAM 3D”) – 2D 이미지 또는 비디오에서 객체의 3차원 형태를 추정하여 AR/VR, 로보틱스, XR 등 다양한 분야에 활용할 수 있습니다.
- Optimized inference – 기능이 추가되었음에도 SAM 3은 효율성을 유지하며 Meta의 SA‑Co 데이터셋에서 이전 버전보다 뛰어난 성능을 보이며 엣지 디바이스 배포를 염두에 두고 설계되었습니다.
Technical deep‑dive: Local implementation on AMD Ryzen AI Max+ 395
Hardware configuration
- CPU: 16‑core Zen 5 (Strix Halo)
- Memory: 128 GB LPDDR5x (8000 MT/s)
- Peak performance: up to 126 TOPS
Ryzen AI의 통합 메모리 아키텍처를 활용해 SAM 3을 클라우드 없이 로컬에서 실행할 수 있어 지연 시간이 낮고 데이터 프라이버시 이점을 제공합니다. 대규모 비전 모델에 일반적으로 사용되는 고성능 GPU(예: NVIDIA H100)와 달리, Ryzen 플랫폼은 메모리 요구량이 비교적 적고 실시간 처리가 필요한 워크로드에 비용 효율적인 대안을 제시합니다.
Running SAM 3 on the Ryzen AI Max+ 395 delivers impressively fast inference, enabling edge‑camera deployments for “segment‑by‑description” detection.
전체 구현 가이드(코드, 벤치마크 결과, IoT 엣지 카메라와의 통합 포함)는 추후 기사에서 공개될 예정입니다.
Resources
- GitHub:
- Hugging Face:
- Demo:
공식 데모를 체험해 SAM 3의 정확성을 직접 확인해 보세요. 댓글로 여러분의 피드백을 기다립니다.