[Paper] CoME-VL: 스케일링 보완적 다중 인코더 비전-언어 학습

발행: 1개월 전 (2026년 4월 4일 오전 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.03231v1

Overview

이 논문은 CoME‑VL을 소개한다. 이는 두 가지 매우 다른 시각 백‑본—대조 인코더(예: CLIP)와 자체‑지도 인코더(DINO)—를 결합하여 비전‑언어 모델(VLM)용 보다 풍부한 시각 표현을 생성하는 모듈식 프레임워크이다. 두 인코더의 강점을 결합함으로써, 저자들은 이미지‑텍스트 검색, 시각적 그라운딩, 시각 질문 응답과 같은 다양한 다운스트림 작업에서 일관된 성능 향상을 달성한다.

주요 기여

Dual‑encoder fusion: 대조 학습과 자체 지도 시각 특징을 단일 VLM 파이프라인 내에서 체계적으로 병합하는 방법.
Entropy‑guided multi‑layer aggregation: 엔트로피를 사용해 각 인코더에서 가장 정보량이 많은 레이어를 선택하고, 직교성 제약을 적용해 융합된 특징이 중복되지 않도록 유지합니다.
RoPE‑enhanced cross‑attention: 회전 위치 임베딩을 적용해 이질적인 토큰 그리드를 정렬하고, 압축되고 구조화된 융합 시각 토큰을 생성합니다.
Plug‑and‑play integration: 융합된 토큰 스트림을 기존 VLM 아키텍처에 최소한의 변경만으로 디코더 전용 대형 언어 모델(LLM)에 직접 입력할 수 있습니다.
Strong empirical results: 시각 이해 벤치마크에서 평균 4.9 %, 그라운딩 벤치마크에서 **5.4 %**의 향상을 보여주며, RefCOCO 탐지에서 새로운 최첨단 성능을 달성했습니다.
Comprehensive ablations: 레이어 선택, 중복 감소, 융합 용량이 전체 성능에 미치는 영향을 분석합니다.

Methodology

두 개의 비주얼 인코더
- 대조 인코더: 이미지‑텍스트 대조 손실(e.g., CLIP)로 학습 → 검색을 위한 모달리티 정렬에 뛰어남.
- 자기지도 인코더: DINO의 자기 증류로 학습 → 조밀하고 세밀한 의미와 강인성을 포착.
엔트로피 기반 다층 집계
- 각 인코더에 대해 레이어별 특징 맵의 엔트로피를 계산.
- 엔트로피가 가장 높은(가장 많은 정보를 담고 있는) 레이어를 선택하고, 직교 선형 맵을 사용해 공유 공간으로 투영하여 두 스트림이 겹치기보다 상보적으로 유지되도록 함.
RoPE‑강화 교차‑어텐션 융합
- 선택된 특징 맵을 토큰 그리드로 취급.
- 회전 위치 임베딩(RoPE)을 적용해 공간 관계를 인코딩.
- 한 인코더의 토큰이 다른 인코더의 토큰에 어텐션을 수행하는 교차‑어텐션 모듈을 실행하여, 융합된 비주얼 토큰 집합을 생성. 이 토큰들은 전역 정렬과 조밀한 의미를 모두 결합함.
디코더‑전용 LLM에 주입
- 융합된 토큰 시퀀스를 텍스트 토큰과 연결하고, 표준 언어 모델 디코더(e.g., GPT‑style)에 전달.
- 아키텍처 전체를 바꿀 필요 없이 비주얼 토큰 임베딩 레이어만 교체하면 됨.
학습
- 전체 시스템을 다운스트림 비전‑언어 작업에 대해 일반적인 대조 또는 생성 목표를 사용해 미세조정. 이때 두 인코더는 고정(또는 선택적으로 공동 미세조정)된 상태를 유지.

결과 및 발견

벤치마크	베이스라인 (단일 인코더)	CoME‑VL	Δ (절대값)
VQAv2 (정확도)	73.1 %	77.8 %	+4.7 %
NLVR2 (정확도)	78.4 %	82.9 %	+4.5 %
RefCOCO (탐지)	71.2 %	78.6 %	+7.4 %
Flickr30K Retrieval (R@1)	62.3 %	66.9 %	+4.6 %

시각 이해 작업 (VQA, NLVR2)은 평균 +4.9 % 향상을 보입니다.
그라운딩 / 로컬라이제이션 작업 (RefCOCO, RefCOCO+)은 평균 +5.4 % 향상되며, 특히 탐지에서 큰 상승을 보입니다.
소거 연구 결과는 다음과 같습니다:
- 엔트로피 기반 레이어 선택을 제거하면 성능이 약 ~2 % 감소합니다.
- 직교 제약을 비활성화하면 약 ~1.5 %의 중복 관련 성능 저하가 발생합니다.
- RoPE를 일반 위치 인코딩으로 교체하면 그라운딩 정확도가 약 ~1 % 감소합니다.

전반적으로, 대비 학습 및 자체 지도 인코더에서 오는 보완 신호는 단순히 추가되는 것이 아니라 시너지 효과를 나타냅니다.

Practical Implications

Better multi‑modal assistants: 이미지에 대해 추론해야 하는 챗봇을 구축하는 개발자(예: 제품 추천, 시각적 문제 해결)는 전체 모델 스택을 재설계하지 않고도 높은 정확도를 달성할 수 있습니다.
Robustness in the wild: 자체 지도 학습 특징은 조명 변화, 가림 현상 등 분포 이동에 대한 회복력을 향상시켜, 엣지 디바이스와 AR/VR 애플리케이션에 유용합니다.
Plug‑and‑play upgrade path: 기존 CLIP 기반 VLM에 고정된 DINO 인코더와 CoME‑VL 융합 모듈을 추가하면, 연산 예산은 비슷하게 유지하면서 눈에 띄는 성능 향상을 얻을 수 있습니다.
Reduced annotation cost: 자체 지도 학습 인코더는 텍스트와의 쌍을 필요로 하지 않으므로, 조직은 대규모 라벨이 없는 이미지 코퍼스를 활용해 추가 라벨링 없이 VLM 성능을 향상시킬 수 있습니다.
Enhanced grounding for robotics: 보다 정확한 시각적 그라운딩은 산업 및 가정 환경에서 물체 집기, 내비게이션, 인간‑로봇 상호작용을 개선합니다.

제한 사항 및 향후 연구

Compute overhead: 두 개의 무거운 인코더를 실행하면 시각 프런트엔드 비용이 두 배가 된다; 저자들은 모델 증류나 경량 인코더 변형으로 이를 완화할 수 있다고 언급한다.
Frozen encoders: 현재 설정은 두 인코더를 고정 상태로 유지한다; 공동 미세조정은 추가 성능 향상을 가져올 수 있지만, 재앙적 망각을 방지하기 위한 신중한 정규화가 필요하다.
Domain specificity: 융합 전략은 일반 목적 데이터셋에서 평가되었으며, 의료 영상, 위성 이미지와 같은 고도로 특화된 도메인에서의 효과는 아직 미지수이다.
Scalability of fusion: 인코더 수가 증가함에 따라 직교성 제약을 만족시키기 어려워질 수 있다; 보다 확장 가능한 융합 메커니즘을 탐구하는 것이 유망한 방향이다.

이 논문은 보완적인 목표로 훈련된 두 헤드가 “두 개의 머리가 하나보다 낫다”는 것을 보여줌으로써 보다 풍부하고 다재다능한 비전‑언어 시스템의 길을 열었다.

저자

Ankan Deria
Komal Kumar
Xilin He
Imran Razzak
Hisham Cholakkal
Fahad Shahbaz Khan
Salman Khan

논문 정보

arXiv ID: 2604.03231v1
카테고리: cs.CV
출판일: 2026년 4월 3일
PDF: PDF 다운로드

[Paper] CoME-VL: 스케일링 보완적 다중 인코더 비전-언어 학습

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] VOSR: 이미지 초해상도를 위한 Vision-Only 생성 모델

[Paper] HyperCT: Low‑Rank Hypernet를 이용한 통합 흉부 CT 분석

[Paper] ProtoFlow: Low-Curvature Prototype Flow를 통한 클래스 증분 원격 탐사 세그멘테이션에서의 망각 완화

[Paper] PR3DICTR: 의료 3D 이미지 기반 탐지 및 결과 예측을 위한 모듈형 AI 프레임워크