[논문] IDEAL: 깊이 정렬이 이산 표현 오토인코더를 만든다
개요
사전 학습된 비전 기본 모델(VFMs)을 기반으로 한 표현 자동인코더(RAEs)는 최근 이미지 생성용 의미론적으로 풍부한 잠재 공간을 구축하는 유망한 접근법으로 부상하고 있습니다. 그러나 이들의 재구성 품질은 종종 최적 이하이며, 이는 주로 깊은 VFM 표현이 충분히 세밀한 시각적 디테일을 보존하지 못하기 때문입니다. 이러한 제한은 이산화 과정 이후에 더욱 심각해지는데, 낮은 수준의 정보가 손실되면 복구하기 어렵습니다. 실제로 우리는 얕은 VFM 특징이 현저히 풍부한 지역 외관 및 구조적 디테일을 유지한다는 점을 관찰했으며, 이는 기존 RAEs에서 사용되는 깊은 특징이 전달하는 고수준 의미와 상호 보완됩니다. 이러한 보완적 특성에 고무되어, 우리는 Ideal이라는 이산 표현 자동인코딩을 위한 In-depth Alignment 프레임워크를 제안합니다. 얕은 특징과 깊은 특징 모두와 양자화된 토큰을 공동 정렬함으로써, Ideal은 생성된 이산 시각 토큰이 시각적 충실도와 풍부한 의미를 동시에 보존하도록 합니다. 광범위한 실험 결과 Ideal이 뛰어난 재구성 성능을 보여주며, ImageNet에서 0.61 rFID를 달성하고 이전 최고 방법보다 0.28 향상된 것을 확인했습니다. 자동 회귀 이미지 생성에 적용했을 때 Ideal은 gFID 1.89를 기록해 자동 회귀 이미지 생성 분야의 새로운 최첨단을 제시합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CV 분야의 발전에 기여합니다.
저자
- Yitong Chen
- Zijie Diao
- Junke Wang
- Lingyu Kong
- Yixuan Ren
- Bo He
- Yu-Gang Jiang
- Zuxuan Wu
논문 정보
- arXiv ID: 2606.11096v1
- Categories: cs.CV
- Published: 2026년 6월 9일
- PDF: PDF 다운로드