[Paper] 어느 방향으로 움직였나요? Video-LLMs에서 방향성 움직임 맹점을 진단하고 극복하기
Source: arXiv - 2605.22823v1
번역할 텍스트를 제공해 주시겠어요?
개요
Video‑LLMs은 최근 비디오 콘텐츠에 대한 질문에 답하는 대표 모델이 되었지만, 놀라운 맹점이 드러났습니다: 객체가 왼쪽, 오른쪽, 위, 아래 중 어느 방향으로 움직이는지 신뢰성 있게 판단하지 못합니다. 논문 “Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video‑LLMs” 은 이 현상이 발생하는 이유를 밝히고, 모델 파이프라인에서 정보가 손실되는 정확한 단계를 짚어내며, 실제 영상에서도 움직임 방향 이해를 크게 향상시키는 경량화된 해결책을 제안합니다.
Key Contributions
- “방향성 움직임 맹목증” 진단 – 대부분의 Video‑LLM이 움직임 방향 질문에 대해 우연 수준으로 답한다는 체계적인 실험.
- 신호 흐름 분석 – 움직임 방향이 비전 인코더, 프로젝터, 그리고 LLM 은닉 상태에 여전히 존재하지만, 최종 출력 단계에서 해당 신호를 올바른 텍스트 답변에 연결하지 못함을 보여줌.
- MoDirect 데이터셋 패밀리 – 명시적인 움직임 방향 주석이 포함된 합성 및 실제 비디오를 선별하여 instruction‑tuning 및 평가에 사용.
- DeltaDirect 목표 – 인접 프레임 특징 간 차이를 이용해 정규화된 2‑D 움직임 벡터를 예측하는 프로젝터‑레벨 학습 손실로, 모델이 움직임 단서를 언어와 연결하도록 효과적으로 학습시킴.
- 실증적 향상 – 합성 벤치마크에서 정확도가 ~26 %에서 >85 %로 급상승; 실제 세계 벤치마크에서는 실제 움직임 방향 파인튜닝 데이터 없이도 21.9점 상승을 달성하면서, 표준 비디오 이해 작업에 대한 성능은 유지됨.
방법론
- Benchmarking motion direction – 저자들은 단일 객체가 왼쪽/오른쪽/위/아래로만 움직이는 간단한 비디오를 제작한다. 그들은 여러 상용 Video‑LLM(예: Flamingo‑Video, LLaVA‑Vid)을 질의하고 답변 정확도를 기록한다.
- Tracing the signal – 선형 프로브를 사용해 파이프라인의 각 구성 요소(비전 인코더 출력, 프로젝션 레이어, LLM 은닉 상태)가 여전히 올바른 2‑D 움직임 벡터를 인코딩하는지 테스트한다. 모든 레이어가 선형으로 디코딩 가능한 신호를 유지한다.
- Identifying the binding gap – 최종 답변 생성(“readout”)이 유지된 벡터를 적절한 단어 선택(“left”, “right” 등)으로 매핑하지 못한다.
- Creating MoDirect – 두 개의 하위 집합이 공개된다:
- MoDirect‑SynBench – 제어된 움직임, 배경, 객체 복잡성을 가진 합성 클립.
- MoDirect‑RealBench – 공개 소스에서 수집한 실제 비디오로, 방향에 대해 수동 라벨링됨.
- DeltaDirect training – 전체 모델을 언어 지시로만 미세조정하는 대신, 연속 프레임 임베딩의 차이(delta)로부터 정규화된 움직임 벡터를 예측하도록 프로젝터에 가벼운 손실을 추가한다. 이 손실은 모델이 시각적 움직임 신호를 LLM이 나중에 단어로 변환할 수 있는 벡터에 직접 결합하도록 학습시킨다.
- Evaluation – DeltaDirect로 지시 튜닝한 후, 모델은 합성 및 실제 벤치마크와 표준 비디오‑QA 작업 모두에서 테스트되어 재앙적인 망각이 없는지 확인한다.
결과 및 발견
| 설정 | 기준 동작‑방향 정확도 | DeltaDirect 적용 후 | 상대 향상 |
|---|---|---|---|
| MoDirect‑SynBench | 25.9 % | 85.4 % | +59.5 % |
| MoDirect‑RealBench | 38.1 % | 60.0 % | +21.9 % |
| Standard video‑QA (예: MS‑VQA) | ≈ 원본 모델과 동일 | ≈ 동일 (성능 저하 없음) | – |
- 신호는 그대로 유지: 선형 탐지기는 중간 레이어에서 동작 벡터를 90 % 이상 복구할 수 있음을 보여주며, 이는 시각 정보가 부족한 것이 아니라는 것을 확인한다.
- 바인딩이 병목: DeltaDirect를 추가하면 대규모 비디오‑LLM 재학습 없이도 격차를 메울 수 있다.
- 일반화: DeltaDirect는 합성 데이터만으로 학습했음에도 실제 비디오에 전이되어, 학습된 바인딩이 시각적 복잡성에 강인함을 나타낸다.
Practical Implications
- More reliable video assistants – Voice‑controlled agents (e.g., smart home hubs, AR glasses) can now answer “Did the car move left or right?” with confidence, opening up richer interaction scenarios.
- Safety‑critical monitoring – Surveillance or autonomous‑driving pipelines that rely on LLM‑based reasoning can correctly flag directional motion events (e.g., a pedestrian crossing left vs. right).
- Low‑cost fine‑tuning – DeltaDirect is a projector‑level loss; developers can integrate it into existing Video‑LLM pipelines without retraining the massive LLM backbone, saving compute and time.
- Dataset as a test suite – MoDirect can serve as a regression benchmark for any new Video‑LLM, ensuring that directional motion understanding is not unintentionally broken in future releases.
제한 사항 및 향후 연구
- 운동 범위 – 이 연구는 단일 객체와 기본 방향에 초점을 맞춥니다. 회전, 대각선 궤적, 다중 객체 상호작용과 같은 복잡한 움직임은 아직 테스트되지 않았습니다.
- 합성 편향 – DeltaDirect가 실제 비디오에 전이되지만, 성능은 완전 감독된 실제 환경 파인튜닝에 아직 뒤처집니다; 보다 풍부한 실제 움직임 데이터셋이 이 격차를 메울 수 있습니다.
- 방향을 넘어선 결합 – “결합 격차”는 깊이, 속도와 같은 다른 시각 원시 요소에 영향을 줄 수 있습니다. 이러한 속성으로 진단 프레임워크를 확장하는 것은 열린 연구 방향입니다.
저자들은 https://github.com/KHU-VLL/DeltaDirect 에서 코드와 MoDirect 벤치마크를 제공하여 개발자들이 결과를 재현하고 확장하기 쉽게 합니다.
저자
- Jongseo Lee
- Hyuntak Lee
- Sunghun Kim
- Sooa Kim
- Jihoon Chung
- Jinwoo Choi
논문 정보
- arXiv ID: 2605.22823v1
- 분류: cs.CV
- 출판일: 2026년 5월 21일
- PDF: PDF 다운로드