[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

발행: (2026년 3월 19일 AM 02:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.18004v1

위에 제공된 내용 외에 번역할 텍스트가 없습니다. 번역이 필요한 본문을 알려주시면 한국어로 번역해 드리겠습니다.

Overview

이 논문은 Spatio‑Temporal Token Scoring (STTS) 라는 경량 모듈을 제안한다. 이 모듈은 전체 비디오‑언어 모델 전반에 걸쳐 불필요한 시각 토큰을 제거한다—Vision Transformer(ViT) 내부와 Large Language Model(LLM) 이전 모두에서. 이를 통해 학습 및 추론 시 계산 비용을 절반 이상 절감하면서도 13개의 비디오‑질문‑답변 벤치마크 전반에 걸쳐 정확도 감소를 1 % 이하로 유지한다.

핵심 기여

  • 통합 토큰 프루닝: 전체 아키텍처(ViT + LLM) 전반에 걸쳐 작동하며, 단일 단계에만 국한되지 않음.
  • 텍스트 조건화나 토큰 병합 불필요: 점수 매기기 메커니즘이 간단하고 빠르며 완전히 미분 가능함.
  • 보조 시간 점수 손실과 LLM으로부터의 하위 그래디언트 신호를 활용해 공간 및 시간상 중복된 토큰을 학습.
  • 효율적인 패킹 알고리즘: 남은 토큰을 최소 오버헤드로 재배열.
  • 실증적 검증: 13개의 짧은·긴 비디오 QA 데이터셋에서 약 50 % 토큰 감소, 62 % 속도 향상, 평균 성능 손실 <0.7 % 달성.
  • 긴 비디오에 대한 확장성: 프레임을 더 많이 샘플링할수록 효율성 향상이 커지며, 테스트 시 스케일링이 정확도까지 개선(베이스라인 대비 0.5‑1 % 상승).

방법론

  1. 토큰 스코어링 레이어 – 각 프레임마다 STTS는 ViT가 출력한 모든 시각 토큰에 스칼라 점수를 할당합니다.
  2. 시간 학습 – 보조 손실이 점수들이 시간에 걸쳐 일관되도록 장려하여, 새로운 정보를 거의 추가하지 않는 프레임을 모델이 인식하도록 돕습니다.
  3. 공간 학습 – 역전파 과정에서 LLM(비전‑언어 모델의 언어 쪽)으로부터 흐르는 그래디언트를 사용해 점수를 조정함으로써, 다운스트림 언어 작업에 중요한 시각 패치를 시스템이 학습하도록 합니다.
  4. 프루닝 및 패킹 – 점수가 가장 낮은 토큰을 제거합니다(보통 전체의 50 %). 남은 토큰은 압축 텐서에 패킹되어, 다운스트림 LLM이 특별한 처리 없이도 조밀한 시퀀스를 받게 됩니다.
  5. 엔드‑투‑엔드 학습 – 스코어링 모듈은 VLM의 나머지 부분과 공동으로 학습되며, 별도의 파인‑튜닝 단계가 필요하지 않습니다.

전체 파이프라인은 몇 개의 행렬 곱셈만 추가하므로, ViT와 LLM 자체의 비용에 비해 무시할 수 있을 정도입니다.

결과 및 발견

지표베이스라인 (프루닝 없음)STTS (50 % 토큰)
평균 QA 정확도 (13 작업)71.2 %70.5 % (‑0.7 %)
학습 속도 향상1.62×
추론 속도 향상1.62×
FLOPs 감소~50 %
  • 효율성은 프레임 수에 따라 확장됩니다: 비디오당 더 많은 프레임을 샘플링하면 시간적 중복이 커지기 때문에 상대적인 속도 향상이 증가합니다.
  • 테스트 시 스케일링: 긴 비디오에 대해 프루닝 비율을 동적으로 조정함으로써, STTS는 실제로 프루닝되지 않은 베이스라인보다 정확도를 0.5‑1 % 향상시킵니다.
  • 작업 전반에 걸친 견고성: 적은 정확도 손실은 짧은 클립 QA(예: TGIF‑QA)와 긴 비디오 QA(예: ActivityNet‑QA) 모두에 적용됩니다.

실용적 시사점

  • 빠른 프로토타이핑: 팀은 일반 GPU에서 비디오‑언어 모델을 약 절반의 시간으로 학습할 수 있어, 더 빠른 반복 사이클을 가능하게 합니다.
  • 클라우드 비용 절감: 추론 지연 시간과 컴퓨팅 비용이 크게 감소하여, 비디오 어시스턴트나 인터랙티브 비디오 검색과 같은 실시간 애플리케이션에 필수적입니다.
  • 엣지 배포: 토큰 수 감소로 인해 대역폭과 전력이 제한된 리소스가 제한된 디바이스(예: AR 안경)에서도 비디오‑VLM을 실행할 수 있게 됩니다.
  • 확장 가능한 파이프라인: 매일 수천 시간의 영상을 처리하는 비디오 분석 플랫폼은 STTS를 통합하여 저장 및 계산 오버헤드를 줄이면서도 답변 품질을 유지할 수 있습니다.
  • 플러그‑앤‑플레이: STTS가 얇고 미분 가능한 모듈이기 때문에 기존 ViT‑LLM 스택(예: CLIP 기반 비디오 QA 모델)에 최소한의 코드 수정만으로 쉽게 삽입할 수 있습니다.

제한 사항 및 향후 연구

  • 보조 손실에 대한 의존성: 시간 점수 손실은 수작업으로 설계되었으며, 대안적인 자체 지도 신호가 더 나은 토큰 선택을 제공할 수 있습니다.
  • 고정된 프루닝 비율: 현재 구현은 50 % 고정 비율을 사용합니다; 비디오별 또는 작업별 적응형 비율이 트레이드‑오프를 더욱 개선할 수 있습니다.
  • 평가가 QA에만 제한됨: QA가 일반적인 벤치마크이지만, 다른 비디오‑언어 작업(예: 캡션 생성, 검색)은 아직 테스트되지 않았습니다.
  • 잠재적 편향: 프루닝은 덜 눈에 띄지만 의미상 중요한 영역의 토큰을 불균형하게 제거할 수 있으며, 이는 체계적인 분석이 필요한 위험입니다.

향후 연구에서는 동적이고 컨텍스트 인식 프루닝 정책을 탐구하고, STTS를 시각을 넘어선 멀티모달 입력(예: 오디오)으로 확장하며, 새로운 효율적인 트랜스포머 아키텍처와 통합할 수 있습니다.

저자

  • Jianrui Zhang
  • Yue Yang
  • Rohun Tripathi
  • Winson Han
  • Ranjay Krishna
  • Christopher Clark
  • Yong Jae Lee
  • Sangho Lee

논문 정보

  • arXiv ID: 2603.18004v1
  • 분류: cs.CV, cs.AI, cs.LG
  • 출판일: 2026년 3월 18일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »