[Paper] Venus: VLM 기반 온라인 비디오 이해를 위한 효율적인 엣지 메모리 및 검색 시스템

발행: (2025년 12월 8일 오후 06:32 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.07344v1

개요

이 논문은 Venus라는 새로운 엣지‑클라우드 시스템을 소개한다. 이 시스템은 장치가 비전‑언어 모델(VLM)을 사용해 실시간 비디오 스트림을 이해하도록 하면서도 지연 시간이나 대역폭을 과도하게 소모하지 않는다. 메모리 구축과 핵심 프레임 검색의 무거운 작업을 엣지로 옮김으로써, Venus는 스마트 카메라, AR 안경, 자율 로봇 등 장치‑내 애플리케이션에서 실시간 VLM 기반 비디오 분석을 실용화한다.

주요 기여

  • 엣지 중심 메모리 아키텍처 – 계층적·다중모달 메모리를 장치 자체에 구축·저장하여 클라우드 왕복 횟수를 크게 감소시킨다.
  • 두 단계 처리 파이프라인수집 단계에서는 비디오 스트림을 지속적으로 세분화·클러스터링하고, 질의 단계에서는 점진적 샘플링 알고리즘으로 관련 프레임을 검색한다.
  • 임계값 기반 점진적 샘플링 – 검색된 프레임의 다양성과 연산 비용을 적응적으로 균형 맞춰, 높은 추론 정확도를 유지하면서 지연 예산을 만족한다.
  • 광범위한 성능 평가 – 기존 클라우드 중심 접근법에 비해 15×–131× 낮은 종단‑대‑종단 지연을 보이며, 유사하거나 더 나은 VLM 추론 품질을 유지하면서 서브‑초 응답 시간을 달성한다.

방법론

1. 수집 단계 (엣지 측)

  • 장면 세분화: 가벼운 움직임 신호를 이용해 들어오는 비디오를 논리적 샷으로 나눈다.
  • 클러스터링: 각 샷 내에서 유사한 프레임을 그룹화하고, 각 클러스터마다 대표 키프레임을 선택한다.
  • 다중모달 임베딩: 각 키프레임을 압축된 VLM 인코더에 통과시켜 시각‑텍스트 공동 임베딩을 얻는다.
  • 계층적 메모리 구축: 임베딩을 다중 레벨 인덱스(예: 장면별 → 클러스터별)로 저장해 빠른 조회를 가능하게 하면서 메모리 사용량을 최소화한다.

2. 질의 단계 (클라우드 측)

  • 들어오는 텍스트 질의(예: “사람이 방에 들어오는 순간을 보여줘”)를 먼저 인덱싱하여 엣지 메모리와 근사 최근접 이웃 검색을 수행한다.
  • 점진적 샘플링: 낮은 비용 임계값에서 시작해 신뢰도 또는 지연 예산이 충족될 때까지 점점 더 다양한 키프레임을 샘플링한다.
  • 선택된 프레임을 클라우드 VLM에 전송해 전체 추론(캡션 생성, 객체 탐지 등)을 수행하고, 최종 답변을 엣지 장치에 반환한다.

이 설계는 가벼운 작업(세분화, 클러스터링, 임베딩)만 엣지에 오프로드하고, 무거운 VLM 추론은 클라우드에서 수행하되 매우 작은, 고도로 관련된 프레임 집합에만 적용한다.

결과 및 발견

MetricVenus기존 방법 (클라우드 전용)
종단‑대‑종단 지연 (평균)0.8 s (실시간)12 s – 100 s
속도 향상 비율15× – 131×1× (baseline)
추론 정확도 (예: 비디오 QA F1)0.780.75
엣지 메모리 사용량 (시간당 비디오)≈ 120 MB해당 없음 (클라우드 전용)

주요 시사점

  • 프레임 집합을 VLM 추론 전에 정제함으로써 Venus는 네트워크 트래픽을 90 % 이상 감소시키고 클라우드 연산 부하를 크게 줄인다.
  • 점진적 샘플링 알고리즘은 다양하고 정보가 풍부한 프레임을 의도적으로 선택하므로 답변 품질을 유지하거나 오히려 향상시킨다.
  • 시스템은 ARM Cortex‑A78(4 GB RAM)과 같은 보통 수준의 엣지 하드웨어에서도 다중 스트림을 동시에 처리할 수 있다.

실용적 함의

  • 스마트 감시 및 IoT – 카메라가 로컬에서 관련 없는 영상을 필터링하고, 가장 유의미한 클립만 클라우드 분석에 전송해 대역폭 및 저장 비용을 절감한다.
  • AR/VR 헤드셋 – 실시간 장면 이해(객체 식별, 활동 감지)가 배터리를 크게 소모하거나 지속적인 고속 연결을 요구하지 않고 가능해진다.
  • 로봇 및 자율 차량 – 엣지 메모리를 통해 “마지막으로 보행자가 건너던 순간”과 같은 빠른 컨텍스트 검색이 가능하고, 복잡한 추론은 필요할 때만 클라우드에 위임한다.
  • 개발자 워크플로 – Venus는 엣지 장치에 任意 VLM 인코더를 연결할 수 있는 재사용 가능한 SDK를 제공하므로 TensorFlow Lite, ONNX Runtime 등 기존 파이프라인에 손쉽게 통합할 수 있다.

제한 사항 및 향후 연구

  • 엣지 하드웨어 제약: 수집 단계는 아직 어느 정도 GPU/NPUs를 전제로 하며, 초저전력 디바이스에서는 추가 모델 압축이 필요할 수 있다.
  • 정적 메모리 세분화: 현재 계층 인덱싱은 고정된 장면/클러스터 레벨을 사용하므로, 동적 스트림에 대해 적응형 세분화가 메모리 효율을 높일 수 있다.
  • 프라이버시 고려: 전송되는 원본 영상이 줄어들긴 하지만, 임베딩 자체가 민감 정보를 누출할 가능성이 있다. 향후 암호화 혹은 차등 프라이버시 임베딩 방안을 탐색할 필요가 있다.
  • 다중 모달 일반화: Venus를 오디오‑비주얼 혹은 센서 융합 스트림에 확장하는 연구가 남아 있다.

저자

  • Shengyuan Ye
  • Bei Ouyang
  • Tianyi Qian
  • Liekang Zeng
  • Mu Yuan
  • Xiaowen Chu
  • Weijie Hong
  • Xu Chen

논문 정보

  • arXiv ID: 2512.07344v1
  • 분류: cs.DC, cs.AI
  • 발표일: 2025년 12월 8일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »