[Paper] Q-GeoMem: 질문 기반 기하학 메모리 for Video Spatial Reasoning

발행: 2주 전 (2026년 5월 27일 AM 02:26 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.27318v1

개요

이 논문은 Q‑GeoMem이라는 새로운 “question‑guided geometric memory” 시스템을 소개한다. 이 시스템은 비디오‑understanding 모델이 질의에 답하는 동안 가장 관련성 높은 공간 단서만을 유지하도록 한다. 카메라‑pose 정보를 시각적 특징에 직접 결합하고 두 개의 보완적인 메모리 뱅크를 활용함으로써, 이 접근법은 비디오‑question answering 벤치마크에서 장거리 공간 추론을 크게 향상시킨다.

주요 기여

Camera‑conditioned visual tokens – 기하학(예: 카메라 포즈, 깊이)이 시각 표현에 포함되어 모델이 각 픽셀이 3‑D 공간에서 어디에 위치하는지 명시적인 감각을 가짐.
Dual‑memory architecture
- Fine‑Grained Context Bank: 촘촘하고 최신 프레임 특징을 해당 카메라 상태와 함께 저장하여 단기 컨텍스트를 제공.
- Semantic‑Geometric Evidence Bank: 이전 프레임에서 추출한 고수준 기하학적 증거를 압축하여 장기 저장소로 유지.
Question‑guided evidence scoring – 들어오는 각 프레임을 (a) 현재 질문과의 관련성( Q‑Former 사용)과 (b) 메모리에 이미 존재하는 내용과의 새로움 정도를 평가하고, 점수가 높은 프레임만 유지.
Adaptive read‑update fusion – 추론 시 모델이 두 은행 모두에서 정보를 읽어 현재 프레임과 결합한 뒤, 용량 기반 교체 규칙을 사용해 은행을 업데이트.
State‑of‑the‑art results – VSI‑Bench 및 VSTI‑Bench 비디오 공간 추론 벤치마크에서 최첨단 성능을 달성했으며, 어블레이션 연구를 통해 점수 매기기와 듀얼‑메모리 메커니즘의 중요성을 확인.

Source: …

Methodology

Geometric Tokenization – 각 비디오 프레임은 백본(예: Swin‑Transformer)으로 처리됩니다. 카메라 파라미터(내부 파라미터, 외부 파라미터)와 선택적인 깊이 맵이 시각 토큰 임베딩에 연결되어 “geometric tokens”가 됩니다.
Two‑Bank Memory
- Fine‑Grained Context Bank (FGCB) 은 가장 최근 N개의 geometric tokens(고밀도, 고해상도)를 슬라이딩 윈도우 형태로 보관합니다.
- Semantic‑Geometric Evidence Bank (SGEB) 은 이전 프레임들의 핵심을 포착한 요약된 evidence vectors(저차원)를 고정 크기로 유지합니다.
Question‑Guided Scoring
- 자연어 질문을 입력받는 경량 트랜스포머인 Q‑Former 가 각 들어오는 프레임에 대한 relevance vector를 생성합니다.
- 새 프레임의 evidence vector와 SGEB에 이미 저장된 벡터들 간의 코사인 유사도로 novelty를 측정합니다.
- 최종 점수 = relevance × (1 – max similarity). 점수가 임계값을 초과하는 프레임만 SGEB에 추가되고, 그렇지 않은 경우 가장 활용도가 낮은 항목을 교체합니다.
Reasoning Pass
- 답변을 생성할 때 모델은 두 은행을 모두 조회하고, 검색된 컨텍스트와 현재 프레임의 geometric tokens를 연결한 뒤, 이를 cross‑modal transformer에 입력하여 답을 예측합니다.
Training – 전체 파이프라인은 end‑to‑end 차별화 가능하며, 손실 함수는 답변 분류를 위한 표준 cross‑entropy와 SGEB evidence vectors를 정보 있게 유지하도록 하는 보조 재구성 손실을 포함합니다.

결과 및 발견

벤치마크	이전 최고 성능 (↑)	Q‑GeoMem (↑)	상대 향상
VSI‑Bench (전체)	68.4%	73.9%	+5.5 pts
VSTI‑Bench (공간‑전용)	61.2%	67.8%	+6.6 pts
장기‑쿼리 (>10 s)	55.0%	62.3%	+7.3 pts

Ablation: 질문‑유도 스코어링을 제거하면 성능이 약 3 포인트 감소하여 선택적 메모리의 중요성을 확인함.
메모리 크기 vs. 정확도: 아주 작은 SGEB (8 슬롯)만 사용해도 모델이 전체 크기 성능의 >90 %를 유지하여 증거 표현의 압축성을 보여줌.
정성적: 시각화 결과 Q‑GeoMem이 주요 기하학적 랜드마크(예: 문 입구, 모서리)를 포함하는 프레임은 유지하고 반복적인 배경은 버려, 보다 명확한 추론 경로를 형성함.

실용적 함의

Robotics & AR/VR – “객체가 사용자에 대해 어디에 있는가?” 라는 질문에 답해야 하는 시스템은 이제 모든 프레임을 저장하지 않고도 가벼운 질문 인식 공간 맵을 유지할 수 있어 엣지 디바이스의 메모리와 연산을 절약한다.
Video analytics platforms – 장시간 감시 영상에서도 공간 관계(예: “차가 건물의 왼쪽을 지나갔나요?”)를 훨씬 적은 프레임만으로 질의할 수 있어 거의 실시간 응답이 가능하다.
Interactive assistants – 비디오 피드를 참조하는 음성 제어 에이전트(예: 스마트 홈 카메라)는 선택적 메모리 업데이트 규칙 덕분에 지연 시간을 낮게 유지하면서 보다 정확한 공간 답변을 제공할 수 있다.
Framework integration – Q‑GeoMem의 구성 요소(기하학 토큰 주입, Q‑Former 스코어링, 듀얼 뱅크)는 모듈식이며 기존 비디오‑언어 백본(예: CLIP‑Video, VideoBERT)에 최소한의 코드 변경으로 삽입할 수 있다.

Limitations & Future Work

정확한 카메라 메타데이터에 대한 의존성 – 이 접근법은 신뢰할 수 있는 자세/깊이 정보를 전제로 하며, 노이즈가 섞인 추정치는 기하학 토큰 품질을 저하시킬 수 있다.
초장 비디오에 대한 확장성 – SGEB는 컴팩트하게 유지되지만, FGCB는 선택된 윈도우 크기에 따라 선형적으로 증가한다; 적응형 윈도우링을 통해 오버헤드를 추가로 줄일 수 있다.
공간 쿼리를 넘어선 일반화 – 현재 설계는 기하학 중심 질문에 맞춰져 있으며, 메모리 스코어링을 시간적 또는 인과적 쿼리를 처리하도록 확장하는 것은 아직 미해결 과제이다.
실제 환경 배포 – 논문은 벤치마크 데이터셋에서의 결과를 보고하고 있으며, Q‑GeoMem을 실시간 로봇 스트림이나 스트리밍 비디오 서비스에 적용해 평가하는 것이 다음 단계로서 가치 있다.

저자

Xianqiang Gao
Qizhi Chen
Delin Qu
Haoming Song
Zhigang Wang
Bin Zhao
Dong Wang
Xuelong Li

논문 정보

arXiv ID: 2605.27318v1
Categories: cs.CV
Published: 2026년 5월 26일
PDF: PDF 다운로드

[Paper] Q-GeoMem: 질문 기반 기하학 메모리 for Video Spatial Reasoning

개요

주요 기여

Methodology

결과 및 발견

실용적 함의

Limitations & Future Work

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제