[논문] 픽셀에서 단어까지 — 대규모 네이티브 원비전 모델을 향해

발행: 2주 전 (2026년 5월 28일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

출처: arXiv - 2605.28820v1

개요

이 논문은 NEO‑ov라는 “네이티브” 비전‑언어 기반 모델을 소개한다. NEO‑ov는 별도의 이미지 인코더, 언어 디코더, 혹은 사후 융합 모듈에 의존하지 않고, 여러 프레임에 걸쳐 픽셀과 단어를 엔드‑투‑엔드 방식으로 연결한다. 전통적인 모듈식 파이프라인을 제거함으로써, 저자들은 단일 통합 아키텍처가 세밀한 시각 과제에서도 경쟁력(때로는 우수) 있는 성능을 달성할 수 있음을 보여주며, 대규모 멀티모달 AI의 보다 매끄러운 구현 가능성을 열었다.

주요 기여

원-비전 아키텍처: 외부 인코더와 어댑터를 없애고 원시 픽셀과 텍스트를 공동으로 처리하는 최초의 대규모 네이티브 비전‑언어 모델(NEO‑ov)을 제시한다.
프레임 간 픽셀‑단어 정렬: 시간에 따라 이미지 패치와 단어 사이의 세밀한 대응을 가능하게 하여 비디오 및 다중 이미지 이해를 지원한다.
경쟁력 있는 성능: NEO‑ov가 최신 모듈식 VLM과의 정확도 격차를 좁히면서, 특히 상세한 공간 추론이 요구되는 과제에서 뛰어난 성과를 보임을 입증한다.
체계적인 아키텍처 분석: 토크나이징 전략, 어텐션 스케일링 등 설계 지침과 함께 다양한 소거 실험(ablation study)을 제공해 연구자들이 네이티브 멀티모달 모델을 재현·확장할 수 있도록 돕는다.
오픈소스 공개: 학습 레시피, 코드, 사전 학습 체크포인트를 공개하여 커뮤니티가 빠르게 채택할 수 있게 한다.

방법론

통합 트랜스포머 백본 – 이미지 패치(평탄화된 픽셀 그리드)와 토크나이즈된 텍스트로 구성된 시퀀스를 하나의 트랜스포머가 입력한다. 별도의 CNN이나 비전 트랜스포머를 사전 학습하지 않으며, 모든 파라미터를 공동으로 학습한다.
시공간 토크나이징 – 비디오 또는 다중 이미지 입력의 경우, 각 프레임을 겹치지 않는 패치로 분할하고 가벼운 위치 인코딩을 통해 공간·시간 정보를 주입한다.
크로스‑모달 어텐션 – 표준 멀티‑헤드 셀프‑어텐션이 결합된 토큰 스트림 전체에 적용되어, 어느 단어 토큰이든 프레임에 관계없이 어떤 픽셀 패치에도 직접 어텐션할 수 있다. 이를 통해 모든 레이어에서 픽셀‑단어 대응이 이루어진다.
학습 목표 – 이미지‑텍스트 매칭을 위한 대비 손실(contrastive loss)과 마스크드 언어 모델링(masked language modeling) 목표를 결합해, 모델이 시각적 맥락으로부터 누락된 단어를 예측하고 그 반대도 수행하도록 유도한다.
스케일링 전략 – LAION 등 대규모 이미지‑텍스트 데이터셋을 혼합 정밀도와 분산 데이터 병렬 학습으로 활용한다. 모델 깊이·폭·배치 크기의 균형을 맞춘 레시피를 따라 최적 수렴을 도모한다.

결과 및 분석

벤치마크	모듈식 VLM (baseline)	NEO‑ov (native)
이미지‑텍스트 검색 (MSCOCO)	78.4 R@1	79.1 R@1
비디오 질문 응답 (MSRVTT‑QA)	44.2 %	45.6 %
세밀한 공간 추론 (RefCOCO)	71.3 %	73.0 %
제로샷 분류 (ImageNet)	71.8 %	71.5 %

격차 축소: 대부분의 표준 비전‑언어 과제에서 NEO‑ov는 파이프라인이 단순함에도 불구하고 모듈식 베이스라인과 동등하거나 약간 앞선다.
우수한 공간 지능: 픽셀 수준의 그라운딩이 요구되는 과제(예: 지시 표현 이해)에서 명확한 우위를 보인다.
확장성: 모델을 300 M에서 2 B 파라미터까지 확장한 실험에서 성능이 꾸준히 상승함을 확인했으며, 네이티브 접근법이 모듈식 대비 동일하게 스케일링됨을 입증한다.

실용적 함의

배포 간소화 – 비전과 언어를 동시에 처리하는 단일 모델 파일은 별도 인코더·디코더를 연결하는 파이프라인에 비해 추론 지연시간과 메모리 오버헤드를 크게 줄인다.
향상된 비디오 이해 – 프레임 간 직접 어텐션 덕분에 비디오 캡셔닝, 감시 분석, 인터랙티브 미디어 등 시간적 맥락이 중요한 응용 분야에 강력한 후보가 된다.
세밀한 UI/AR – 픽셀‑단어 정렬은 시각 어시스턴트, AR 오버레이, 로봇 인식 시스템 등 언어 명령을 정확한 이미지 영역에 매핑해야 하는 애플리케이션을 보다 정밀하게 구현한다.
통합 파인튜닝 – 개발자는 동일 체크포인트를 검색, VQA, 캡셔닝 등 다양한 다운스트림 작업에 그대로 파인튜닝할 수 있어 모델 재설계 없이 제품 개발 주기를 가속화한다.

제한점 및 향후 연구

학습 비용 – 엔드‑투‑엔드 네이티브 학습은 여전히 대규모 GPU 클러스터와 방대한 정제 데이터셋을 필요로 하며, 소규모 연구실에게는 진입 장벽이 될 수 있다.
고해상도 입력에 대한 일반화 – 매우 고해상도 이미지나 긴 비디오 시퀀스는 토큰 수 제한을 초과할 수 있다. 향후 계층적 토크나이징이나 메모리 효율 어텐션 기법을 탐색할 필요가 있다.
해석 가능성 – 모델이 픽셀‑단어 정렬을 학습하지만, 내부 어텐션 패턴은 명시적 정렬 모듈만큼 투명하지 않다. 크로스‑모달 어텐션을 시각화하는 도구가 유용할 것이다.
도메인 적응 – 의료 영상, 위성 데이터 등 특수 분야에 NEO‑ov를 적용하려면 추가적인 도메인‑특화 사전 학습이나 커리큘럼 전략이 필요할 수 있다.

NEO‑ov는 진정한 “원‑비전” 기반 모델이 가능할 뿐만 아니라 경쟁력도 있음을 보여주며, 차세대 멀티모달 애플리케이션을 구축하려는 개발자들에게 간소화된 경로를 제공한다.

저자

Haiwen Diao
Jiahao Wang
Penghao Wu
Yuhao Dong
Yuwei Niu
Yue Zhu
Zhongang Cai
Weichen Fan
Linjun Dai
Silei Wu
Xuanyu Zheng
Mingxuan Li
Yuanhan Zhang
Bo Li
Hanming Deng
Huchuan Lu
Quan Wang
Lei Yang
Lewei Lu
Dahua Lin
Ziwei Liu

논문 정보

arXiv ID: 2605.28820v1
분류: cs.CV
발표일: 2026년 5월 27일
PDF: PDF 다운로드

[논문] 픽셀에서 단어까지 — 대규모 네이티브 원비전 모델을 향해

개요

주요 기여

방법론

결과 및 분석

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제