[Paper] Molmo2: 비전‑언어 모델을 위한 오픈 가중치와 데이터, 비디오 이해 및 그라운딩
발행: (2026년 1월 16일 오전 02:27 GMT+9)
10 min read
원문: arXiv
Source: arXiv - 2601.10611v1
번역할 텍스트를 제공해 주시겠어요? 현재는 소스 링크만 포함되어 있어 번역할 내용이 없습니다. 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.
개요
Molmo2는 새로운 오픈‑웨이트 비전‑언어 모델(VLM) 계열로, 비디오 이해 분야에서 최첨단을 달성했으며, 특히 픽셀‑레벨 그라운딩(포인팅, 트래킹)을 단일 이미지, 다중 이미지 세트 및 비디오 스트림 전반에 걸쳐 수행할 수 있습니다. 모델 가중치와 전체 학습 데이터 파이프라인을 모두 공개함으로써, 저자들은 커뮤니티에 재현 가능한 기반을 제공하여 차세대 비디오 중심 AI 애플리케이션을 구축할 수 있게 합니다.
주요 기여
- 오픈‑소스 데이터 수집: 7개의 새로운 비디오 데이터셋 + 2개의 멀티‑이미지 데이터셋(자세한 캡션, 자유형 Q&A, 객체‑추적 질의, 비디오‑포인팅 작업)을 폐쇄‑소스 VLM 없이 수집함.
- Molmo2 모델 패밀리: 최대 8 B 파라미터의 확장 가능한 아키텍처이며, 맞춤형 패킹 및 메시지‑트리 인코딩 방식을 사용해 긴 비디오 시퀀스를 효율적으로 처리하도록 학습됨.
- 양방향 비전‑토큰 어텐션 및 토큰‑가중치 전략을 도입하여 교차‑모달 추론과 그라운딩 정확도를 향상시킴.
- 최첨단 오픈‑웨이트 성능: 짧은 비디오 캡션 및 카운팅에서 최고 수준이며, 긴 비디오 작업에서도 경쟁력 있음; 비디오 그라운딩 및 트래킹 벤치마크에서 독점 모델을 능가함.
- 포괄적인 평가 스위트는 짧은 비디오와 긴 비디오 모두에서 캡션, 카운팅, Q&A, 포인팅, 트래킹을 포함함.
방법론
-
데이터 파이프라인
- 공개 소스에서 원시 비디오 클립을 선별하고 고세분화 캡션(동작, 객체 및 장면 세부 정보를 설명)으로 주석을 달았습니다.
- 주석자들이 클립에 대해 자연스러운 질문을 하는 자유형 비디오 Q&A 세트를 구축했습니다.
- 비디오 포인팅 데이터셋을 설계했습니다: 주석자들이 프레임의 객체를 클릭하고 텍스트 참조를 제공하여 모델이 “어디를” 봐야 하는지 학습하도록 합니다.
- 다단계 질의가 포함된 복합 객체 추적 데이터셋을 추가했습니다(예: “사라졌다가 다시 나타난 빨간 공을 추적해라”).
-
모델 아키텍처
- 비디오 프레임을 비전 토큰 시퀀스로 처리하는 트랜스포머 기반 비전‑언어 백본.
- 메시지 트리 인코딩은 가변 길이 프레임 시퀀스를 압축된 표현으로 묶어 메모리 오버헤드를 감소시킵니다.
- 양방향 어텐션은 언어 토큰이 비전 토큰을, 비전 토큰이 언어 토큰을 서로 주목하게 하여 정렬을 강화합니다.
- 토큰 가중치 전략은 그라운딩 작업에서 참조될 가능성이 높은 토큰(예: 질의에 언급된 객체)에 더 높은 중요도를 부여합니다.
-
학습 절차
- 대규모 캡션 데이터셋에 대한 사전 학습을 통해 일반적인 비디오‑텍스트 정렬을 학습합니다.
- 캡션, 분류, 그라운딩 목표를 균형 있게 조정하는 멀티태스크 손실을 사용해 Q&A, 포인팅, 추적 데이터셋에 대해 미세 조정합니다.
- 일반 GPU에서 효율적인 혼합 정밀도 학습을 수행하여 8 B 모델을 대부분의 연구실에서도 활용 가능하게 합니다.
결과 및 발견
| Task | Molmo2‑8B | Qwen3‑VL (open) | Gemini 3 Pro (proprietary) |
|---|---|---|---|
| 비디오 카운팅 (짧은) | 35.5 % accuracy | 29.6 % | – |
| 비디오 포인팅 (F1) | 38.4 | – | 20.0 |
| 비디오 트래킹 (J&F) | 56.2 | – | 41.1 |
| 짧은 비디오 캡션 생성 (BLEU‑4) | State‑of‑the‑art among open models | – | – |
| 긴 비디오 이해 | Competitive (within 2–3 % of top closed models) | – | – |
- Molmo2는 그라운딩 중심 벤치마크에서 기존 오픈‑웨이트 VLM을 지속적으로 능가합니다.
- 여러 작업(포인팅, 트래킹)에서 프로프라이어터리 기준을 초과하여, 오픈 데이터와 스마트 트레이닝이 격차를 좁힐 수 있음을 보여줍니다.
- 소거 연구 결과 양방향 어텐션과 토큰 가중치가 각각 그라운딩 메트릭에서 약 3–5 %의 절대 향상을 가져오는 것으로 나타났습니다.
실용적 함의
- 개발자용 API: 가중치와 데이터가 공개되어 엔지니어는 비용이 많이 드는 라이선스 없이도 Molmo2를 도메인‑특화 비디오 어시스턴트, 감시 분석, 인터랙티브 미디어 애플리케이션 등에 맞게 파인‑튜닝할 수 있습니다.
- 향상된 비디오 UI/UX: 포인트‑앤‑클릭 인터페이스(예: 비디오 편집기, e‑러닝 플랫폼)는 이제 객체가 “어디에” 있는지를 진정으로 이해하는 모델을 활용해 자동 객체 태깅, 스마트 클리핑, 비디오 콘텐츠에 대한 인터랙티브 Q&A와 같은 기능을 제공할 수 있습니다.
- 로보틱스 및 AR: 실시간 그라운딩을 통해 로봇이나 AR 안경이 실시간 비디오 피드에서 객체를 가리키는 자연어 명령을 수행할 수 있습니다(예: “왼쪽에 있는 파란 머그컵을 줘”).
- 콘텐츠 모더레이션: 정밀한 그라운딩은 정책 위반을 일으키는 특정 프레임이나 영역을 표시하는 데 도움을 주어, 거친 분류에 비해 오탐을 감소시킵니다.
- 연구 가속화: 공개된 데이터셋은 커뮤니티를 위한 벤치마크 스위트가 되어 재현성을 장려하고 비디오‑언어 연구의 빠른 반복을 가능하게 합니다.
제한 사항 및 향후 작업
- 스케일 한계: 8 B 모델은 강력하지만, 매우 장시간 비디오 추론 및 오디오를 포함하는 다중 모달 추론에서 가장 큰 독점 VLM보다 여전히 뒤처진다.
- 컴퓨팅 요구 사항: 전체 파이프라인을 학습하려면 다중 GPU 클러스터가 필요하며, 소규모 연구실은 제공된 체크포인트와 제한된 파인튜닝에 의존해야 할 수 있다.
- 도메인 편향: 데이터셋은 다양하지만 공개된 비디오에서 수집되었으며, 의료 영상, 산업 검사와 같은 특수 도메인을 충분히 대표하지 못할 수 있다.
- 향후 방향: 저자들이 제안한 바에 따르면, 오디오 스트림 통합, 희소 어텐션을 활용한 30 B 초과 파라미터로의 스케일링, 그리고 혼합 현실 시나리오를 위한 3‑D 포인트 클라우드 기반 그라운딩 작업 확장이 포함된다.
저자
- Christopher Clark
- Jieyu Zhang
- Zixian Ma
- Jae Sung Park
- Mohammadreza Salehi
- Rohun Tripathi
- Sangho Lee
- Zhongzheng Ren
- Chris Dongjoo Kim
- Yinuo Yang
- Vincent Shao
- Yue Yang
- Weikai Huang
- Ziqi Gao
- Taira Anderson
- Jianrui Zhang
- Jitesh Jain
- George Stoica
- Winson Han
- Ali Farhadi
- Ranjay Krishna
논문 정보
- arXiv ID: 2601.10611v1
- 카테고리: cs.CV, cs.AI
- 출판일: 2026년 1월 15일
- PDF: PDF 다운로드