[Paper] CoME-VL: 스케일링 보완적 다중 인코더 비전-언어 학습

발행: (2026년 4월 4일 AM 02:59 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.03231v1

Overview

이 논문은 CoME‑VL을 소개한다. 이는 두 가지 매우 다른 시각 백‑본—대조 인코더(예: CLIP)와 자체‑지도 인코더(DINO)—를 결합하여 비전‑언어 모델(VLM)용 보다 풍부한 시각 표현을 생성하는 모듈식 프레임워크이다. 두 인코더의 강점을 결합함으로써, 저자들은 이미지‑텍스트 검색, 시각적 그라운딩, 시각 질문 응답과 같은 다양한 다운스트림 작업에서 일관된 성능 향상을 달성한다.

주요 기여

  • Dual‑encoder fusion: 대조 학습과 자체 지도 시각 특징을 단일 VLM 파이프라인 내에서 체계적으로 병합하는 방법.
  • Entropy‑guided multi‑layer aggregation: 엔트로피를 사용해 각 인코더에서 가장 정보량이 많은 레이어를 선택하고, 직교성 제약을 적용해 융합된 특징이 중복되지 않도록 유지합니다.
  • RoPE‑enhanced cross‑attention: 회전 위치 임베딩을 적용해 이질적인 토큰 그리드를 정렬하고, 압축되고 구조화된 융합 시각 토큰을 생성합니다.
  • Plug‑and‑play integration: 융합된 토큰 스트림을 기존 VLM 아키텍처에 최소한의 변경만으로 디코더 전용 대형 언어 모델(LLM)에 직접 입력할 수 있습니다.
  • Strong empirical results: 시각 이해 벤치마크에서 평균 4.9 %, 그라운딩 벤치마크에서 **5.4 %**의 향상을 보여주며, RefCOCO 탐지에서 새로운 최첨단 성능을 달성했습니다.
  • Comprehensive ablations: 레이어 선택, 중복 감소, 융합 용량이 전체 성능에 미치는 영향을 분석합니다.

Methodology

  1. 두 개의 비주얼 인코더

    • 대조 인코더: 이미지‑텍스트 대조 손실(e.g., CLIP)로 학습 → 검색을 위한 모달리티 정렬에 뛰어남.
    • 자기지도 인코더: DINO의 자기 증류로 학습 → 조밀하고 세밀한 의미와 강인성을 포착.
  2. 엔트로피 기반 다층 집계

    • 각 인코더에 대해 레이어별 특징 맵의 엔트로피를 계산.
    • 엔트로피가 가장 높은(가장 많은 정보를 담고 있는) 레이어를 선택하고, 직교 선형 맵을 사용해 공유 공간으로 투영하여 두 스트림이 겹치기보다 상보적으로 유지되도록 함.
  3. RoPE‑강화 교차‑어텐션 융합

    • 선택된 특징 맵을 토큰 그리드로 취급.
    • 회전 위치 임베딩(RoPE)을 적용해 공간 관계를 인코딩.
    • 한 인코더의 토큰이 다른 인코더의 토큰에 어텐션을 수행하는 교차‑어텐션 모듈을 실행하여, 융합된 비주얼 토큰 집합을 생성. 이 토큰들은 전역 정렬과 조밀한 의미를 모두 결합함.
  4. 디코더‑전용 LLM에 주입

    • 융합된 토큰 시퀀스를 텍스트 토큰과 연결하고, 표준 언어 모델 디코더(e.g., GPT‑style)에 전달.
    • 아키텍처 전체를 바꿀 필요 없이 비주얼 토큰 임베딩 레이어만 교체하면 됨.
  5. 학습

    • 전체 시스템을 다운스트림 비전‑언어 작업에 대해 일반적인 대조 또는 생성 목표를 사용해 미세조정. 이때 두 인코더는 고정(또는 선택적으로 공동 미세조정)된 상태를 유지.

결과 및 발견

벤치마크베이스라인 (단일 인코더)CoME‑VLΔ (절대값)
VQAv2 (정확도)73.1 %77.8 %+4.7 %
NLVR2 (정확도)78.4 %82.9 %+4.5 %
RefCOCO (탐지)71.2 %78.6 %+7.4 %
Flickr30K Retrieval (R@1)62.3 %66.9 %+4.6 %
  • 시각 이해 작업 (VQA, NLVR2)은 평균 +4.9 % 향상을 보입니다.
  • 그라운딩 / 로컬라이제이션 작업 (RefCOCO, RefCOCO+)은 평균 +5.4 % 향상되며, 특히 탐지에서 큰 상승을 보입니다.
  • 소거 연구 결과는 다음과 같습니다:
    • 엔트로피 기반 레이어 선택을 제거하면 성능이 약 ~2 % 감소합니다.
    • 직교 제약을 비활성화하면 약 ~1.5 %의 중복 관련 성능 저하가 발생합니다.
    • RoPE를 일반 위치 인코딩으로 교체하면 그라운딩 정확도가 약 ~1 % 감소합니다.

전반적으로, 대비 학습 및 자체 지도 인코더에서 오는 보완 신호는 단순히 추가되는 것이 아니라 시너지 효과를 나타냅니다.

Practical Implications

  • Better multi‑modal assistants: 이미지에 대해 추론해야 하는 챗봇을 구축하는 개발자(예: 제품 추천, 시각적 문제 해결)는 전체 모델 스택을 재설계하지 않고도 높은 정확도를 달성할 수 있습니다.
  • Robustness in the wild: 자체 지도 학습 특징은 조명 변화, 가림 현상 등 분포 이동에 대한 회복력을 향상시켜, 엣지 디바이스와 AR/VR 애플리케이션에 유용합니다.
  • Plug‑and‑play upgrade path: 기존 CLIP 기반 VLM에 고정된 DINO 인코더와 CoME‑VL 융합 모듈을 추가하면, 연산 예산은 비슷하게 유지하면서 눈에 띄는 성능 향상을 얻을 수 있습니다.
  • Reduced annotation cost: 자체 지도 학습 인코더는 텍스트와의 쌍을 필요로 하지 않으므로, 조직은 대규모 라벨이 없는 이미지 코퍼스를 활용해 추가 라벨링 없이 VLM 성능을 향상시킬 수 있습니다.
  • Enhanced grounding for robotics: 보다 정확한 시각적 그라운딩은 산업 및 가정 환경에서 물체 집기, 내비게이션, 인간‑로봇 상호작용을 개선합니다.

제한 사항 및 향후 연구

  • Compute overhead: 두 개의 무거운 인코더를 실행하면 시각 프런트엔드 비용이 두 배가 된다; 저자들은 모델 증류나 경량 인코더 변형으로 이를 완화할 수 있다고 언급한다.
  • Frozen encoders: 현재 설정은 두 인코더를 고정 상태로 유지한다; 공동 미세조정은 추가 성능 향상을 가져올 수 있지만, 재앙적 망각을 방지하기 위한 신중한 정규화가 필요하다.
  • Domain specificity: 융합 전략은 일반 목적 데이터셋에서 평가되었으며, 의료 영상, 위성 이미지와 같은 고도로 특화된 도메인에서의 효과는 아직 미지수이다.
  • Scalability of fusion: 인코더 수가 증가함에 따라 직교성 제약을 만족시키기 어려워질 수 있다; 보다 확장 가능한 융합 메커니즘을 탐구하는 것이 유망한 방향이다.

이 논문은 보완적인 목표로 훈련된 두 헤드가 “두 개의 머리가 하나보다 낫다”는 것을 보여줌으로써 보다 풍부하고 다재다능한 비전‑언어 시스템의 길을 열었다.

저자

  • Ankan Deria
  • Komal Kumar
  • Xilin He
  • Imran Razzak
  • Hisham Cholakkal
  • Fahad Shahbaz Khan
  • Salman Khan

논문 정보

  • arXiv ID: 2604.03231v1
  • 카테고리: cs.CV
  • 출판일: 2026년 4월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »