[Paper] Monet: 이미지와 언어를 넘어선 잠재 시각 공간에서의 추론

발행: (2025년 11월 26일 오후 10:46 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.21395v1

개요

이 논문은 Monet이라는 새로운 학습 프레임워크를 소개한다. 이 프레임워크는 다중모달 대형 언어 모델(MLLM)이 원시 이미지와 텍스트를 오가며 작업하는 대신, 잠재 시각 공간에서 “생각”하도록 한다. 연속적인 시각 임베딩을 중간 추론 단계로 생성함으로써, Monet은 인간이 추상적인 시각적 사고를 형성하는 방식에 가깝게 시각 추론을 이동시켜, 실제 세계 및 분포 외 시각 작업에서 더 강력한 성능을 발휘한다.

주요 기여

  • 잠재 시각 추론: MLLM이 외부 비전 도구 없이 내부 이미지 임베딩을 직접 조작하도록 하는 패러다임을 제시한다.
  • 3단계 증류 SFT 파이프라인: 언어와 비전 잠재 공간을 정렬하면서 생성된 임베딩에 대한 강력한 감독을 제공하는 비용 효율적인 미세조정 레시피.
  • VLPO (Visual‑latent Policy Optimization): 잠재 시각 임베딩을 보상 신호에 명시적으로 포함하는 강화학습 기반 정책‑그라디언트 방법으로, 텍스트‑전용 RL 기법을 넘어선 시각 추론을 개선한다.
  • Monet‑SFT‑125K 데이터셋: 실제 사진, 차트, OCR, 기하 문제 등을 포괄하는 125 K개의 CoT 예시를 정제한 컬렉션으로, 텍스트와 잠재‑시각 단계가 교차한다.
  • Monet‑7B 모델: 70억 파라미터 MLLM으로, 인식, 추론, 추상 시각 벤치마크에서 기존 베이스라인을 지속적으로 능가하며, 보이지 않는 시각 개념에 대한 강력한 일반화를 보여준다.

방법론

  1. 잠재 시각 공간: 매 추론 단계마다 원시 픽셀을 비전 인코더에 입력하는 대신, Monet의 언어 모델은 다음에 사용할 “시각적 사고”를 나타내는 연속 임베딩 벡터를 예측한다. 이 임베딩은 최종 답변이 필요할 때만 동결된 비전 디코더에 의해 디코딩된다.

  2. 3단계 증류 SFT

    • 1단계 – 비전‑언어 정렬: 교사 비전‑언어 모델(예: CLIP)이 각 이미지에 대한 목표 임베딩을 제공하고, MLLM은 이를 모방하도록 학습한다.
    • 2단계 – 체인‑오브‑생각 감독: Monet‑SFT‑125K 데이터셋을 활용해 모델을 미세조정하여 인간이 작성한 CoT와 일치하는 텍스트와 잠재‑시각 토큰을 교대로 생성하도록 한다.
    • 3단계 – 강화 미세조정: VLPO는 정책‑그라디언트 업데이트를 적용하는데, 보상은 표준 언어 정확도(예: 정답 정확도)와 잠재‑시각 일관성 항을 결합한다. 이 항은 예측된 임베딩이 교사 모델의 잠재 공간과 얼마나 잘 정렬되는지를 측정한다.
  3. VLPO vs. GRPO: 저자들은 일반적으로 사용되는 Generalized Reinforcement‑Policy Optimization(GRPO)이 텍스트 추론만 개선한다는 것을 보여준다. VLPO는 그래디언트에 잠재‑시각 손실을 추가해 모델이 유용한 시각 임베딩을 생성하도록 직접 장려한다.

결과 및 분석

벤치마크메트릭 (↑ 높을수록 좋음)Monet‑7B vs. Strong Baseline
VQA‑Real (실제 세계 인식)정확도 73.4%+5.2 pt
ChartQA (차트 추론)Exact Match 68.1%+6.8 pt
OCR‑CoT (텍스트 추출 + 추론)F1 81.7%+4.5 pt
Abstract Geometry (분포 외)해결률 62.3%+9.1 pt

핵심 요약

  • 잠재 시각 추론은 특히 중간 시각 추상이 중요한 차트·기하와 같은 다양한 작업에서 일관된 향상을 제공한다.
  • 제거 실험(ablation) 결과, VLPO를 빼면 시각‑중심 벤치마크에서 약 3–4 % 성능이 감소하고, 증류 단계들을 없애면 정렬 품질이 크게 악화된다.
  • 무거운 비전 디코더가 추론 시점에 한 번만 실행되므로 모델은 텍스트‑전용 MLLM과 비슷한 속도를 유지한다.

실용적 함의

  • 개발자 친화적 API: Monet은 프롬프트와 선택적 이미지를 받아 텍스트 답변을 반환하는 단일 엔드포인트로 래핑될 수 있다. 이는 각 추론 단계마다 별도 비전 호출이 필요 없으므로 챗봇, 데이터 분석 어시스턴트, 저코드 플랫폼에 쉽게 통합된다.
  • 비용 효율적 확장: 비전 인코더를 동결하고 가벼운 임베딩만 생성함으로써, 전체 비전‑언어 파이프라인에 비해 GPU 메모리와 연산량을 크게 줄인다. 따라서 온‑프레미스 배포나 소형 GPU를 이용한 엣지 추론이 가능해진다.
  • 시각 어시스턴트 UI/UX 향상: 문서 처리, 대시보드 분석, 디자인 리뷰 등에서 모델에게 “강조된 영역의 경계 상자를 그려줘”와 같이 중간 개념을 “시각화”하도록 요청할 수 있어, 별도 이미지 렌더링 없이도 풍부하고 자연스러운 상호작용이 가능해진다.
  • 추상 추론의 기반: 잠재‑시각 접근법은 텍스트 설명만으로 로봇 동작을 계획하거나 과학 도표를 이해하는 등, 정신적 이미지가 필요한 작업에 대한 길을 열어준다.

제한점 및 향후 연구

  • 동결된 비전 디코더 의존성: 잠재 임베딩의 품질은 사전 학습된 비전 모델에 의해 제한된다. 향상된 성능을 위해서는 공동 학습이나 더 나은 디코더가 필요할 수 있다.
  • 데이터셋 편향: Monet‑SFT‑125K는 다양하지만 여전히 영어 중심 자료에 크게 의존하며, 전 세계 문화적 시각 관습을 충분히 포괄하지 못한다.
  • 대규모 모델에의 확장성: 현재 실험은 7 B 파라미터 백본에 국한되어 있다. 30 B 이상 모델이나 다중모달 지시 튜닝에 이 접근법이 어떻게 확장될지는 미지수이다.
  • 잠재 사고의 해석 가능성: 임베딩은 인간이 직접 읽을 수 없으므로 “시각 오류” 디버깅이 어렵다. 향후 연구에서는 중간 임베딩을 시각화하거나 기호적 스케치로 매핑하는 방안을 탐색할 수 있다.

Monet은 시각 추론을 언어 모델의 잠재 공간에 직접 삽입하는 것이 가능할 뿐만 아니라 실용적으로도 유리함을 보여주며, 보다 컴팩트하고 인지적으로 정렬된 다중모달 AI 시스템의 길을 열어준다.

저자

  • Qixun Wang
  • Yang Shi
  • Yifei Wang
  • Yuanxing Zhang
  • Pengfei Wan
  • Kun Gai
  • Xianghua Ying
  • Yisen Wang

논문 정보

  • arXiv ID: 2511.21395v1
  • 분류: cs.CV, cs.AI
  • 발표일: 2025년 11월 26일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…