[Paper] SAM3-DMS: SAM3의 다중 대상 비디오 분할을 위한 디커플드 메모리 선택

발행: (2026년 1월 15일 오전 03:52 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.09699v1

Overview

Segment Anything 3 (SAM3) 은 비디오 스트림에서 객체를 감지·분할·추적하기 위한 대표적인 기반 모델이 되었습니다. 단일 객체 또는 저밀도 장면에서는 잘 작동하지만, 원래 설계에서는 다수의 객체가 동시에 나타날 때 어떤 메모리 프레임을 사용할지에 대해 단일, 집합적인 결정을 내립니다. 이러한 “그룹 수준” 메모리 선택은 혼잡한 영상에서 정체성 전환(identity swap)과 마스크 흔들림(jittery masks)을 일으킬 수 있습니다. 새로운 SAM3‑DMS (Decoupled Memory Selection) 플러그인은 추가 학습 없이 이 문제를 해결해 주며, 각 객체의 메모리를 독립적으로 유지하도록 하여 더 안정적인 드롭‑인 업그레이드를 제공합니다.

주요 기여

  • Decoupled Memory Selection (DMS): 전역이 아닌 객체별로 메모리 프레임을 선택하는 학습 없이 사용 가능한 모듈로, 개별 객체의 신뢰성을 유지합니다.
  • Zero‑Shot Compatibility: 기존 SAM3 모델과 바로 사용할 수 있으며, 파인튜닝이나 추가 데이터가 필요 없습니다.
  • Scalable Multi‑Target Performance: 동시 타깃 수가 증가할수록 성능 향상이 크게 나타나며, 스포츠나 감시와 같은 밀집 장면에 적합합니다.
  • Robust Identity Preservation: 마스크 교체를 감소시키고 긴 비디오 시퀀스 전반에 걸쳐 시간적 일관성을 향상시킵니다.
  • Comprehensive Evaluation: 표준 다중 객체 비디오 분할 데이터셋에서 벤치마크를 수행했으며, 최첨단 정체성 보존 지표를 보고합니다.

Methodology

  1. Memory Bank in SAM3: SAM3는 과거 프레임 집합(“메모리”)을 저장하고 이를 쿼리하여 마스크를 전파합니다. 원래 설계에서는 동일한 메모리 집합이 프레임 내 모든 객체에 사용됩니다.
  2. Per‑Object Scoring: SAM3‑DMS는 기존 인코더 특징을 활용해 각 객체‑메모리 쌍에 대한 경량 신뢰도 점수를 계산합니다(추가 네트워크 없음).
  3. Decoupled Selection: 활성 대상마다, 해당 대상에 대해 가장 높은 신뢰도를 가진 상위 k개의 메모리 프레임을 선택합니다. 이렇게 하면 객체마다 다른 메모리 부분집합이 생성됩니다.
  4. Mask Propagation: 선택된 메모리는 SAM3의 디코더에 다시 입력되어, 각 객체에 가장 관련성 높은 히스토리를 조건으로 하는 마스크를 생성합니다.
  5. Training‑Free Integration: 점수 함수가 SAM3의 내부 임베딩을 재사용하기 때문에 전체 파이프라인을 추론 시 전처리 단계로 삽입할 수 있으며, 몇 줄의 코드만 추가하면 됩니다.

Results & Findings

Metric (higher is better)SAM3 (baseline)SAM3‑DMS (ours)
ID‑F1 (identity F1)71.2%78.9% (+7.7)
mIoU (mean IoU)68.5%70.1% (+1.6)
FPS (inference speed)12.411.9 (≈ 4% drop)
  • Identity preservation 은 특히 10개 이상의 객체가 존재할 때 크게 향상됩니다 (ID‑F1 증가율 >10%).
  • Mask quality (mIoU) 는 약간의 향상을 보이며, 디커플드 메모리가 공간 정확성을 희생하지 않음을 확인합니다.
  • Speed impact 은 최소 수준이며, 추가적인 스코어링 및 선택 과정이 프레임당 몇 밀리초만 늘려 대부분의 애플리케이션에서 실시간 처리를 유지합니다.

정성적인 예시에서는 객체가 교차하거나 가려질 때 “마스크 스와프”가 감소하고 트랙이 더 부드럽게 유지되는 것을 확인할 수 있습니다.

Practical Implications

  • Video Analytics & Surveillance: SAM3‑DMS를 배포하면 맞춤 재학습 없이도 다수의 사람이나 차량을 신뢰성 있게 추적할 수 있어, 신원 교체로 인한 오경보를 감소시킵니다.
  • AR/VR & Real‑Time Effects: 개발자는 여러 움직이는 객체(예: 스포츠 선수) 위에 지속적인 마스크를 안정된 신원으로 오버레이할 수 있어 사용자 몰입감을 향상시킵니다.
  • Robotics & Autonomous Systems: 다중 객체 인식 파이프라인은 SAM3‑DMS를 활용해 프레임 간 일관된 객체 ID를 유지함으로써 하위 단계의 계획 및 의사결정을 간소화합니다.
  • Content Creation Tools: 로토스코핑이나 배경 교체에 SAM3를 사용하는 비디오 편집자는 혼잡한 장면을 다룰 때 수동 보정이 줄어드는 효과를 경험합니다.
  • Easy Integration: 이 방법은 학습이 필요 없고 추론 경로에만 영향을 주므로 기존 SAM3 배포에 단일 함수 호출이나 가벼운 래퍼만으로 추가할 수 있습니다.

제한 사항 및 향후 작업

  • 메모리 오버헤드: 객체별로 별도의 메모리 서브셋을 유지하면 GPU 메모리 사용량이 약간 증가하는데, 이는 매우 저사양 디바이스에서는 병목이 될 수 있습니다.
  • 신뢰도 점수 단순성: 현재 점수는 순수 인코더 임베딩에 기반하고 있으며, 보다 정교한 학습 기반 메트릭을 도입하면 특히 매우 유사한 객체들에 대해 성능을 추가로 향상시킬 수 있습니다.
  • 극도로 밀집된 장면: 대상 개수가 증가함에 따라 성능 향상이 나타나지만, 프레임에 50개 이상의 객체가 존재할 경우 수익이 감소하는 현상이 여전히 나타나며, 이는 계층적 혹은 영역 기반 메모리 관리가 필요함을 시사합니다.
  • 향후 방향: 저자들은 객체별 적응형 메모리 예산 탐색, 경량 학습 기반 선택기 통합, 그리고 3‑D 포인트 클라우드 비디오 스트림으로 접근 방식을 확장하는 방안을 제안합니다.

저자

  • Ruiqi Shen
  • Chang Liu
  • Henghui Ding

논문 정보

  • arXiv ID: 2601.09699v1
  • 분류: cs.CV
  • 출판일: 2026년 1월 14일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »