[Paper] WeaveTime: 이전 프레임의 스트림을 VideoLLM의 Emergent Memory로

발행: (2026년 2월 26일 오전 02:45 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.22142v1

개요

논문 WeaveTime은 오늘날 Video‑LLM이 가지고 있는 근본적인 맹점을 해결합니다: 비디오를 흐르는 시간 순서가 있는 시퀀스가 아니라 정적인 프레임 모음으로 취급합니다. 이러한 “시간 무관”적인 관점은 모델이 인과 관계를 추론하고, 사건을 올바른 순서대로 따라가며, 현재 프레임을 과거 맥락과 구분하는 것을 어렵게 만듭니다—특히 실시간 비디오 스트림을 처리할 때 중요한 문제가 됩니다. WeaveTime은 경량의 모델‑무관 애드온을 도입하여 Video‑LLM이 시간 순서를 인식하고 활용하도록 가르칩니다. 이는 기본 아키텍처를 재설계하거나 방대한 스트리밍 데이터셋을 요구하지 않고도 가능합니다.

주요 기여

  • Temporal Reconstruction Objective – 몇 번의 파인튜닝 단계만으로 모델이 프레임의 올바른 연대순을 재구성하도록 강제하는 간단한 “Streaming Order Perception”(SOP) 손실로, 시간적 인식을 주입합니다.
  • Past‑Current Dynamic Focus Cache – 모델의 불확실성이 급증할 때만 히스토리 윈도우를 동적으로 확장하는 추론 시 메커니즘으로, 과거 프레임을 거친 단계에서 정밀 단계로 검색합니다.
  • Model‑agnostic Plug‑and‑Play Design – WeaveTime은 아키텍처 변경 없이도 모든 기존 Video‑LLM(예: Flamingo‑Video, Video‑ChatGPT)과 호환되어 기존 파이프라인에 손쉽게 적용할 수 있습니다.
  • Efficiency Gains – 필요할 때만 히스토리 확장을 제한함으로써 시스템은 지연 시간과 GPU 메모리 사용량을 감소시키면서도 스트리밍 작업 정확도를 향상시킵니다.
  • Empirical Validation – 기존 Video‑LLM 대비 낮은 추론 시간으로 여러 스트리밍 벤치마크(예: LiveQA, Streaming VQA)에서 일관된 성능 향상을 달성했습니다.

방법론

  1. Teach Order (Training Phase)

    • 저자들은 원본 Video‑LLM 가중치를 고정하고 가벼운 temporal head를 추가합니다.
    • Temporal Reconstruction 손실을 사용하여, 모델은 섞인 미니‑배치 프레임을 받아 원래 타임스탬프를 예측하거나 올바른 순서를 재구성해야 합니다.
    • 이 목표는 특별한 스트리밍 데이터 없이 표준 비디오 데이터셋에 적용되므로, 모델은 시각‑언어 지식을 유지하면서 순서‑인식 임베딩을 학습합니다.
  2. Use Order (Inference Phase)

    • Past‑Current Dynamic Focus Cache가 고정된 Video‑LLM 앞에 위치합니다.
    • 각 입력 프레임에 대해, 캐시는 먼저 빠른 불확실성 추정기(예: 언어 디코더의 엔트로피)를 실행합니다.
    • 불확실성이 낮으면, 모델은 현재 프레임만 사용해 답변합니다(빠른 경로).
    • 불확실성이 임계값을 초과하면, 캐시는 전략적으로 선택된 과거 프레임 몇 개를 (coarse‑to‑fine 방식으로) 가져와 언어 생성을 다시 실행합니다. 이를 통해 모델은 필요할 때만 관련 히스토리를 통합할 수 있습니다.

전체 파이프라인은 < 5 % 정도의 추가 파라미터만 필요하며, 단 한 줄의 코드로 기존 Video‑LLM 배포에 바로 적용할 수 있습니다.

결과 및 발견

벤치마크Baseline Video‑LLM+ WeaveTimeLatency Δ
LiveQA (streaming VQA)62.4 % 정확도68.9 %–12 %
Streaming VQA (temporal reasoning)58.1 %64.7 %–9 %
Real‑time Captioning71.3 % BLEU‑475.5 %–7 %
  • 정확도 향상: 시간적 추론이 필요한 작업에서 절대 5–7 %의 향상.
  • 지연 시간 감소: 동적 캐시 덕분에 많은 프레임이 빠른 경로에서 처리되어 평균 추론 시간이 약 10 % 감소.
  • 메모리 절감: 언제든지 GPU 메모리에 보관되는 과거 프레임 수가 소수에 불과해 엣지 GPU(예: RTX 3060)에서도 배포 가능.

이 결과는 적당한 수준의 순서 인식 파인튜닝과 스마트 캐싱 전략이 스트리밍 비디오 애플리케이션에 큰 차이를 만들 수 있음을 확인해준다.

Practical Implications

  • Live video assistants (예: 실시간 스포츠 해설, 감시 모니터링)은 전체 비디오 스트림을 버퍼링하지 않고도 “방금 무슨 일이 있었나요?”라는 질문에 답할 수 있습니다.
  • AR/VR 파이프라인에서 낮은 지연 시간의 장면 이해가 필요할 때, WeaveTime을 통합하면 현재 뷰는 선명하게 유지하면서도 최근 행동에 대한 추론을 할 수 있습니다.
  • 엣지 배포가 가능해집니다: 개발자는 보통 수준의 GPU에서 표준 Video‑LLM을 실행하고, WeaveTime을 추가하여 엄격한 지연 시간 예산을 충족할 수 있습니다.
  • 개발자 워크플로우가 단순화됩니다—대규모 스트리밍 데이터셋을 수집하거나 모델 아키텍처를 재설계할 필요 없이, 몇 번의 SOP 파인튜닝과 플러그인 캐시만으로 충분합니다.
  • 오픈소스 릴리스(코드 + 가중치) 덕분에 팀은 도메인 특화 비디오 스트림(예: 의료 내시경, 산업 검사)에 기술을 빠르게 벤치마크하고 적용할 수 있습니다.

제한 사항 및 향후 과제

  • 시간적 범위: 현재 캐시는 과거 몇 초까지만 확장됩니다; 몇 분에 걸친 서사와 같은 장기 의존성은 여전히 놓칠 수 있습니다.
  • 불확실성 휴리스틱: 트리거 임계값이 수동으로 조정됩니다; 보다 적응적이고 학습된 정책이 불필요한 히스토리 호출을 추가로 감소시킬 수 있습니다.
  • 평가 범위: 벤치마크는 영어 작업에 초점을 맞추고 있습니다; 다국어 또는 다중모달(오디오‑비주얼) 스트리밍 시나리오는 아직 탐구되지 않았습니다.
  • 저자들이 제시한 향후 방향: 다중 스케일 시간 추론을 위한 계층적 캐싱, 풍부한 컨텍스트를 위한 오디오 신호 통합, 그리고 엔드‑투‑엔드 최적화를 위해 SOP 헤드와 함께 불확실성 추정기를 공동 학습하는 것 등이 포함됩니다.

저자

  • Yulin Zhang
  • Cheng Shi
  • Sibei Yang

논문 정보

  • arXiv ID: 2602.22142v1
  • 분류: cs.CV
  • 출판일: 2026년 2월 25일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »