[Paper] 텍스트 기반 토큰 프루닝을 활용한 Fast SAM2
Source: arXiv - 2512.21333v1
Overview
이 논문은 text‑driven token‑pruning 기법을 제시하여 비디오 객체 분할을 위한 Segment Anything Model 2 (SAM2)의 속도를 높인다. 객체와 관련된 텍스트 설명을 활용해 무거운 temporal‑attention 단계 이전에 관련 없는 시각 토큰을 제거함으로써, 저자들은 42 % faster inference와 37 % lower GPU memory 사용량을 달성하면서 원본 모델과 동등한 분할 품질을 유지한다.
주요 기여
- 초기 토큰 선택 레이어가 이미지 인코더와 SAM2의 메모리 전파 모듈 사이에 배치됨.
- 경량 라우팅 메커니즘은 토큰을 다음을 사용해 점수화함:
- 지역 시각 컨텍스트,
- 객체 중심 텍스트(사용자 제공 또는 자동 생성)에서의 의미적 관련성, 그리고
- 불확실성 신호를 이용해 모호하거나 경계 영역을 보호.
- SAM2 핵심 아키텍처에 변경 없음 – 프루닝은 기존 파이프라인에 바로 삽입할 수 있는 플러그인임.
- 포괄적인 벤치마크는 최대 42.5 % 속도 향상 및 37.4 % 메모리 감소를 보여주며 J‑&‑F 점수 손실은 무시할 수준임.
- 초기 토큰 프루닝이 실시간 및 자원 제한 비디오 분할에 실현 가능한 방법임을 입증.
방법론
- 시각 인코딩 – 각 비디오 프레임은 SAM2의 이미지 인코더에 의해 처리되어 조밀한 시각 토큰 집합(패치 임베딩)을 생성합니다.
- 토큰 스코어링 – 작은 라우팅 네트워크가 세 가지 축을 기준으로 모든 토큰을 평가합니다:
- 지역 시각 단서: 인접 토큰 간 유사도와 에지 정보.
- 텍스트 관련성: 토큰 특징과 객체 설명(예: “빨간 축구공”)에서 파생된 텍스트 임베딩 간의 코사인 유사도.
- 불확실성: 경계가 모호하거나 움직임 흐림이 있는 영역을 표시하는 경량 분류기의 고엔트로피 예측.
- 가지치기 결정 – 결합된 점수에 따라 토큰을 순위 매긴 뒤, 설정 가능한 유지 비율(예: 30 %–70 %)에 따라 남길 토큰을 결정합니다.
- 시간적 전파 – 유지된 토큰만 SAM2의 메모리‑어텐션 모듈에 전달되어, 이차적인 어텐션 비용을 크게 줄입니다.
- 세그멘테이션 헤드 – 다운스트림 디코더는 변함없이 작동하여, 프롬프트된 객체에 대한 최종 마스크를 생성합니다.
전체 가지치기 단계는 V100 기준으로 프레임당 ≈ 2 ms 정도만 추가로 소요되며, 이후 어텐션 레이어에서 절감되는 비용에 비해 매우 작습니다.
결과 및 발견
| 지표 | Baseline SAM2 | + 텍스트 기반 프루닝 (30 % 유지) |
|---|---|---|
| 추론 속도 (FPS) | 8.1 | 11.5 (+42 %) |
| GPU 메모리 (GB) | 10.2 | 6.4 (‑37 %) |
| J‑score (영역 유사도) | 0.84 | 0.82 |
| F‑score (컨투어 정확도) | 0.78 | 0.77 |
- 속도 및 메모리 향상은 유지 비율에 거의 선형적으로 비례하며, 50 % 유지율만으로도 약 25 %의 속도 향상이 발생합니다.
- 세그멘테이션 품질은 다섯 개의 비디오 세그멘테이션 벤치마크(DAVIS‑2017, YouTube‑VOS 등)에서 2 % 미만으로 감소합니다.
- 소거 연구를 통해 시각, 텍스트, 불확실성 각 점수 요소가 고유하게 기여함을 확인했으며, 텍스트를 제거하면 속도 향상은 감소하지만 외관이 유사한 객체에 대한 정확도는 손상됩니다.
Practical Implications
- 실시간 비디오 분석: 개발자는 이제 엣지 디바이스(예: Jetson, 모바일 GPU)에서 SAM2 스타일 세그멘테이션을 실행하여 AR 오버레이, 자율 주행 인식, 실시간 비디오 편집과 같은 애플리케이션에 활용할 수 있습니다.
- 비용 효율적인 클라우드 추론: GPU 메모리 사용량 감소는 더 작은 인스턴스 유형이나 높은 배치 처리량을 가능하게 하여 SaaS 비디오 처리 플랫폼의 운영 비용을 절감합니다.
- 프롬프트 인식 파이프라인: 자연어 프롬프트를 활용함으로써 시스템이 자동으로 관심 객체에 계산을 집중시켜, 수동 ROI 선택 없이 “검색‑추적” 스타일 인터페이스를 구현합니다.
- 플러그‑인‑플레이 업그레이드: 기존 SAM2 배포 환경에 프루닝 모듈을 단일 API 호출만으로 통합할 수 있어 재학습이나 아키텍처 재구성이 필요하지 않습니다.
제한 사항 및 향후 연구
- 고품질 텍스트 프롬프트 의존성: 부정확하거나 모호한 설명은 토큰 순위를 오도하여 가끔 마스크가 악화될 수 있습니다.
- 고정된 유지 비율: 현재 구현은 정적인 프루닝 비율을 사용합니다; 적응형 전략(예: 움직임 복잡도에 기반한 프레임당 예산)으로 더 나은 트레이드오프를 얻을 수 있습니다.
- 평가가 비디오 세그멘테이션에만 제한됨: 이 접근법을 다른 트랜스포머 중심 비전 작업(예: 비디오 캡션, 다중 객체 추적)으로 확장하는 것은 아직 열려 있는 과제입니다.
- 하드웨어 특화 프로파일링: 성능 향상은 고성능 GPU에서 측정되었으며, CPU, NPU, 저전력 ASIC 등에 대한 추가 연구가 필요합니다.
전체적으로, 이 연구는 초기 텍스트 기반 토큰 프루닝이 SAM2와 같은 대형 비전 기반 모델을 생산 등급의 지연 민감 환경에서 실용적으로 활용할 수 있는 수단임을 보여줍니다.
저자
- Avilasha Mandal
- Chaoning Zhang
- Fachrina Dewi Puspitasari
- Xudong Wang
- Jiaquan Zhang
- Caiyan Qin
- Guoqing Wang
- Yang Yang
- Heng Tao Shen
논문 정보
- arXiv ID: 2512.21333v1
- 분류: cs.CV
- 출판일: 2025년 12월 24일
- PDF: PDF 다운로드