[Paper] 텍스트 기반 토큰 프루닝을 활용한 Fast SAM2

발행: (2025년 12월 25일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.21333v1

Overview

이 논문은 text‑driven token‑pruning 기법을 제시하여 비디오 객체 분할을 위한 Segment Anything Model 2 (SAM2)의 속도를 높인다. 객체와 관련된 텍스트 설명을 활용해 무거운 temporal‑attention 단계 이전에 관련 없는 시각 토큰을 제거함으로써, 저자들은 42 % faster inference37 % lower GPU memory 사용량을 달성하면서 원본 모델과 동등한 분할 품질을 유지한다.

주요 기여

  • 초기 토큰 선택 레이어가 이미지 인코더와 SAM2의 메모리 전파 모듈 사이에 배치됨.
  • 경량 라우팅 메커니즘은 토큰을 다음을 사용해 점수화함:
    1. 지역 시각 컨텍스트,
    2. 객체 중심 텍스트(사용자 제공 또는 자동 생성)에서의 의미적 관련성, 그리고
    3. 불확실성 신호를 이용해 모호하거나 경계 영역을 보호.
  • SAM2 핵심 아키텍처에 변경 없음 – 프루닝은 기존 파이프라인에 바로 삽입할 수 있는 플러그인임.
  • 포괄적인 벤치마크는 최대 42.5 % 속도 향상37.4 % 메모리 감소를 보여주며 J‑&‑F 점수 손실은 무시할 수준임.
  • 초기 토큰 프루닝이 실시간 및 자원 제한 비디오 분할에 실현 가능한 방법임을 입증.

방법론

  1. 시각 인코딩 – 각 비디오 프레임은 SAM2의 이미지 인코더에 의해 처리되어 조밀한 시각 토큰 집합(패치 임베딩)을 생성합니다.
  2. 토큰 스코어링 – 작은 라우팅 네트워크가 세 가지 축을 기준으로 모든 토큰을 평가합니다:
    • 지역 시각 단서: 인접 토큰 간 유사도와 에지 정보.
    • 텍스트 관련성: 토큰 특징과 객체 설명(예: “빨간 축구공”)에서 파생된 텍스트 임베딩 간의 코사인 유사도.
    • 불확실성: 경계가 모호하거나 움직임 흐림이 있는 영역을 표시하는 경량 분류기의 고엔트로피 예측.
  3. 가지치기 결정 – 결합된 점수에 따라 토큰을 순위 매긴 뒤, 설정 가능한 유지 비율(예: 30 %–70 %)에 따라 남길 토큰을 결정합니다.
  4. 시간적 전파 – 유지된 토큰만 SAM2의 메모리‑어텐션 모듈에 전달되어, 이차적인 어텐션 비용을 크게 줄입니다.
  5. 세그멘테이션 헤드 – 다운스트림 디코더는 변함없이 작동하여, 프롬프트된 객체에 대한 최종 마스크를 생성합니다.

전체 가지치기 단계는 V100 기준으로 프레임당 ≈ 2 ms 정도만 추가로 소요되며, 이후 어텐션 레이어에서 절감되는 비용에 비해 매우 작습니다.

결과 및 발견

지표Baseline SAM2+ 텍스트 기반 프루닝 (30 % 유지)
추론 속도 (FPS)8.111.5 (+42 %)
GPU 메모리 (GB)10.26.4 (‑37 %)
J‑score (영역 유사도)0.840.82
F‑score (컨투어 정확도)0.780.77
  • 속도 및 메모리 향상은 유지 비율에 거의 선형적으로 비례하며, 50 % 유지율만으로도 약 25 %의 속도 향상이 발생합니다.
  • 세그멘테이션 품질은 다섯 개의 비디오 세그멘테이션 벤치마크(DAVIS‑2017, YouTube‑VOS 등)에서 2 % 미만으로 감소합니다.
  • 소거 연구를 통해 시각, 텍스트, 불확실성 각 점수 요소가 고유하게 기여함을 확인했으며, 텍스트를 제거하면 속도 향상은 감소하지만 외관이 유사한 객체에 대한 정확도는 손상됩니다.

Practical Implications

  • 실시간 비디오 분석: 개발자는 이제 엣지 디바이스(예: Jetson, 모바일 GPU)에서 SAM2 스타일 세그멘테이션을 실행하여 AR 오버레이, 자율 주행 인식, 실시간 비디오 편집과 같은 애플리케이션에 활용할 수 있습니다.
  • 비용 효율적인 클라우드 추론: GPU 메모리 사용량 감소는 더 작은 인스턴스 유형이나 높은 배치 처리량을 가능하게 하여 SaaS 비디오 처리 플랫폼의 운영 비용을 절감합니다.
  • 프롬프트 인식 파이프라인: 자연어 프롬프트를 활용함으로써 시스템이 자동으로 관심 객체에 계산을 집중시켜, 수동 ROI 선택 없이 “검색‑추적” 스타일 인터페이스를 구현합니다.
  • 플러그‑인‑플레이 업그레이드: 기존 SAM2 배포 환경에 프루닝 모듈을 단일 API 호출만으로 통합할 수 있어 재학습이나 아키텍처 재구성이 필요하지 않습니다.

제한 사항 및 향후 연구

  • 고품질 텍스트 프롬프트 의존성: 부정확하거나 모호한 설명은 토큰 순위를 오도하여 가끔 마스크가 악화될 수 있습니다.
  • 고정된 유지 비율: 현재 구현은 정적인 프루닝 비율을 사용합니다; 적응형 전략(예: 움직임 복잡도에 기반한 프레임당 예산)으로 더 나은 트레이드오프를 얻을 수 있습니다.
  • 평가가 비디오 세그멘테이션에만 제한됨: 이 접근법을 다른 트랜스포머 중심 비전 작업(예: 비디오 캡션, 다중 객체 추적)으로 확장하는 것은 아직 열려 있는 과제입니다.
  • 하드웨어 특화 프로파일링: 성능 향상은 고성능 GPU에서 측정되었으며, CPU, NPU, 저전력 ASIC 등에 대한 추가 연구가 필요합니다.

전체적으로, 이 연구는 초기 텍스트 기반 토큰 프루닝이 SAM2와 같은 대형 비전 기반 모델을 생산 등급의 지연 민감 환경에서 실용적으로 활용할 수 있는 수단임을 보여줍니다.

저자

  • Avilasha Mandal
  • Chaoning Zhang
  • Fachrina Dewi Puspitasari
  • Xudong Wang
  • Jiaquan Zhang
  • Caiyan Qin
  • Guoqing Wang
  • Yang Yang
  • Heng Tao Shen

논문 정보

  • arXiv ID: 2512.21333v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »