[논문] DecQ: 표현 오토인코더의 재구성·생성 향상을 위한 디테일 압축 쿼리

발행: 2주 전 (2026년 5월 22일 AM 02:34 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2605.22777v1

개요

Representation Autoencoders (RAE)는 고정된 비전 기반 모델(VFM)을 토크나이저 인코더로 활용하여, 잠재 확산 모델에서 빠른 수렴과 고품질 생성이 가능한 강력한 고수준 표현을 제공합니다. 그러나 VFM을 고정하면 공간 재구성 능력이 제한되어 세밀한 생성 및 이미지 편집이 어려워집니다. 반대로 재구성 중심 신호를 파인튜닝을 통해 도입하면 사전 학습된 의미 공간이 깨지고 생성 충실도가 떨어집니다. 이러한 트레이드오프를 해소하기 위해 우리는 DecQ라는 간단하면서도 효과적인 RAE 프레임워크를 제안합니다. DecQ는 경량의 디테일 압축 쿼리를 도입해, 콘덴서 모듈을 통해 중간 VFM 특징에서 세밀한 정보를 추출합니다. 이 쿼리들은 디코더에 통합되어 재구성을 지원하고, 생성 모델링 과정에서 패치 토큰과 함께 공동으로 생성됩니다. 얕은 층과 깊은 층의 정보를 모두 집계함으로써 DecQ는 재구성‑생성 트레이드오프를 효과적으로 완화하고, 재구성 품질과 생성 성능을 동시에 향상시킵니다. 실험 결과는 다음을 보여줍니다: (1) 추가 쿼리 8개와 3.9%의 연산량 증가만으로도 DecQ는 고정된 DINOv2 기반 RAE의 재구성을 개선하여 PSNR을 19.13 dB에서 22.76 dB로 상승시켰으며, (2) 생성 모델링에서는 DecQ가 RAE보다 3.3배 빠르게 수렴하고, 가이던스 없이 FID 1.41, 가이던스 사용 시 FID 1.05를 달성했습니다.

핵심 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Tianhang Wang
Yitong Chen
Wei Song
Zuxuan Wu
Min Li
Jiaqi Wang

논문 정보

arXiv ID: 2605.22777v1
분류: cs.CV
발표일: 2026년 5월 21일
PDF: Download PDF

[논문] DecQ: 표현 오토인코더의 재구성·생성 향상을 위한 디테일 압축 쿼리

개요

핵심 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견