통합 멀티모달 자동회귀 모델링, 공유 컨텍스트‑시각 토크나이저가 통합의 열쇠

발행: 2일 전 (2026년 6월 17일 AM 02:59 GMT+9)

4 분 소요

원문: arXiv

Overview

통합 멀티모달 모델은 시각 이해와 생성 기능을 하나의 시스템에 통합하는 것을 목표로 합니다. 하지만 기존 접근 방식들은 일반적으로 두 개의 서로 다른 시각 토크나이저를 사용하며, 이는 표현 공간을 분할하고 진정한 통합 모델링을 방해합니다. 우리는 UniAR이라는 통합 자동회귀 프레임워크를 제안합니다. 여기서 단일 이산 시각 토크나이저가 이해와 생성 사이의 핵심 다리 역할을 하며, 모델이 추가 재인코딩 없이 자체 생성한 시각 토큰을 직접 해석할 수 있는 공유 컨텍스트를 제공합니다. UniAR은 사전 훈련된 비전 인코더에 다중 레벨 피처 융합과 lookup-프리 비트 양자화 스키마를 적용하여 고수준 의미와 저수준 디테일을 모두 보존하면서 효과적인 시각 어휘 규모를 최소 비용으로 확장합니다. 이 기반 위에서, 통합 자동회귀 모델은 공간적 그룹화 및 다중 레벨 시각 코드를 동시에 예측하는 병렬 비트 예측 방식을 채택하여 시각 시퀀스 길이를 크게 줄이고 생성 속도를 가속화합니다. 마지막으로, 확산 기반 시각 디코더는 이산 시각 토큰을 활용해 고해상도 이미지를 디코딩합니다. 대규모 사전 훈련을 거쳐 감독 미세조정과 강화 학습을 진행함으로써, UniAR은 이미지 생성 및 편집 분야에서 최첨단 성능을 달성하면서도 멀티모달 이해 벤치마크에서는 여전히 경쟁력 있는 결과를 보입니다. 프로젝트 페이지는 https://sharelab-sii.github.io/uniar-web 에 제공됩니다.

Key Contributions

이 논문은 다음 분야의 연구를 제시합니다:

cs.CV

Methodology

자세한 방법론은 원문 논문을 참고하십시오.

Practical Implications

본 연구는 cs.CV 분야의 발전을 기여합니다.

Authors

Wujian Peng
Lingchen Meng
Yuxuan Cai
Xianwei Zhuang
Yuhuan Yang
Rongyao Fang
Chenfei Wu
Junyang Lin
Zuxuan Wu
Shuai Bai

Paper Information

arXiv ID: 2606.18249v1
카테고리: cs.CV
발행일: 2026년 6월 16일
PDF: PDF 다운로드

통합 멀티모달 자동회귀 모델링, 공유 컨텍스트‑시각 토크나이저가 통합의 열쇠

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

[논문] 참조 기반 다중 스피커 오디오 씬 생성