[Paper] 텍스트 기반 토큰 프루닝을 활용한 Fast SAM2

발행: 1개월 전 (2025년 12월 25일 오전 03:59 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.21333v1

Overview

이 논문은 text‑driven token‑pruning 기법을 제시하여 비디오 객체 분할을 위한 Segment Anything Model 2 (SAM2)의 속도를 높인다. 객체와 관련된 텍스트 설명을 활용해 무거운 temporal‑attention 단계 이전에 관련 없는 시각 토큰을 제거함으로써, 저자들은 42 % faster inference와 37 % lower GPU memory 사용량을 달성하면서 원본 모델과 동등한 분할 품질을 유지한다.

주요 기여

초기 토큰 선택 레이어가 이미지 인코더와 SAM2의 메모리 전파 모듈 사이에 배치됨.
경량 라우팅 메커니즘은 토큰을 다음을 사용해 점수화함:
1. 지역 시각 컨텍스트,
2. 객체 중심 텍스트(사용자 제공 또는 자동 생성)에서의 의미적 관련성, 그리고
3. 불확실성 신호를 이용해 모호하거나 경계 영역을 보호.
SAM2 핵심 아키텍처에 변경 없음 – 프루닝은 기존 파이프라인에 바로 삽입할 수 있는 플러그인임.
포괄적인 벤치마크는 최대 42.5 % 속도 향상 및 37.4 % 메모리 감소를 보여주며 J‑&‑F 점수 손실은 무시할 수준임.
초기 토큰 프루닝이 실시간 및 자원 제한 비디오 분할에 실현 가능한 방법임을 입증.

방법론

시각 인코딩 – 각 비디오 프레임은 SAM2의 이미지 인코더에 의해 처리되어 조밀한 시각 토큰 집합(패치 임베딩)을 생성합니다.
토큰 스코어링 – 작은 라우팅 네트워크가 세 가지 축을 기준으로 모든 토큰을 평가합니다:
- 지역 시각 단서: 인접 토큰 간 유사도와 에지 정보.
- 텍스트 관련성: 토큰 특징과 객체 설명(예: “빨간 축구공”)에서 파생된 텍스트 임베딩 간의 코사인 유사도.
- 불확실성: 경계가 모호하거나 움직임 흐림이 있는 영역을 표시하는 경량 분류기의 고엔트로피 예측.
가지치기 결정 – 결합된 점수에 따라 토큰을 순위 매긴 뒤, 설정 가능한 유지 비율(예: 30 %–70 %)에 따라 남길 토큰을 결정합니다.
시간적 전파 – 유지된 토큰만 SAM2의 메모리‑어텐션 모듈에 전달되어, 이차적인 어텐션 비용을 크게 줄입니다.
세그멘테이션 헤드 – 다운스트림 디코더는 변함없이 작동하여, 프롬프트된 객체에 대한 최종 마스크를 생성합니다.

전체 가지치기 단계는 V100 기준으로 프레임당 ≈ 2 ms 정도만 추가로 소요되며, 이후 어텐션 레이어에서 절감되는 비용에 비해 매우 작습니다.

결과 및 발견

지표	Baseline SAM2	+ 텍스트 기반 프루닝 (30 % 유지)
추론 속도 (FPS)	8.1	11.5 (+42 %)
GPU 메모리 (GB)	10.2	6.4 (‑37 %)
J‑score (영역 유사도)	0.84	0.82
F‑score (컨투어 정확도)	0.78	0.77

속도 및 메모리 향상은 유지 비율에 거의 선형적으로 비례하며, 50 % 유지율만으로도 약 25 %의 속도 향상이 발생합니다.
세그멘테이션 품질은 다섯 개의 비디오 세그멘테이션 벤치마크(DAVIS‑2017, YouTube‑VOS 등)에서 2 % 미만으로 감소합니다.
소거 연구를 통해 시각, 텍스트, 불확실성 각 점수 요소가 고유하게 기여함을 확인했으며, 텍스트를 제거하면 속도 향상은 감소하지만 외관이 유사한 객체에 대한 정확도는 손상됩니다.

Practical Implications

실시간 비디오 분석: 개발자는 이제 엣지 디바이스(예: Jetson, 모바일 GPU)에서 SAM2 스타일 세그멘테이션을 실행하여 AR 오버레이, 자율 주행 인식, 실시간 비디오 편집과 같은 애플리케이션에 활용할 수 있습니다.
비용 효율적인 클라우드 추론: GPU 메모리 사용량 감소는 더 작은 인스턴스 유형이나 높은 배치 처리량을 가능하게 하여 SaaS 비디오 처리 플랫폼의 운영 비용을 절감합니다.
프롬프트 인식 파이프라인: 자연어 프롬프트를 활용함으로써 시스템이 자동으로 관심 객체에 계산을 집중시켜, 수동 ROI 선택 없이 “검색‑추적” 스타일 인터페이스를 구현합니다.
플러그‑인‑플레이 업그레이드: 기존 SAM2 배포 환경에 프루닝 모듈을 단일 API 호출만으로 통합할 수 있어 재학습이나 아키텍처 재구성이 필요하지 않습니다.

제한 사항 및 향후 연구

고품질 텍스트 프롬프트 의존성: 부정확하거나 모호한 설명은 토큰 순위를 오도하여 가끔 마스크가 악화될 수 있습니다.
고정된 유지 비율: 현재 구현은 정적인 프루닝 비율을 사용합니다; 적응형 전략(예: 움직임 복잡도에 기반한 프레임당 예산)으로 더 나은 트레이드오프를 얻을 수 있습니다.
평가가 비디오 세그멘테이션에만 제한됨: 이 접근법을 다른 트랜스포머 중심 비전 작업(예: 비디오 캡션, 다중 객체 추적)으로 확장하는 것은 아직 열려 있는 과제입니다.
하드웨어 특화 프로파일링: 성능 향상은 고성능 GPU에서 측정되었으며, CPU, NPU, 저전력 ASIC 등에 대한 추가 연구가 필요합니다.

전체적으로, 이 연구는 초기 텍스트 기반 토큰 프루닝이 SAM2와 같은 대형 비전 기반 모델을 생산 등급의 지연 민감 환경에서 실용적으로 활용할 수 있는 수단임을 보여줍니다.

저자

Avilasha Mandal
Chaoning Zhang
Fachrina Dewi Puspitasari
Xudong Wang
Jiaquan Zhang
Caiyan Qin
Guoqing Wang
Yang Yang
Heng Tao Shen

논문 정보

arXiv ID: 2512.21333v1
분류: cs.CV
출판일: 2025년 12월 24일
PDF: PDF 다운로드

[Paper] 텍스트 기반 토큰 프루닝을 활용한 Fast SAM2

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론

[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing

[Paper] 연관 학습을 위한 Track-Detection Matching for Multi-Object Tracking

[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델