효율적이고 학습이 필요 없는 단일 이미지 확산 모델
출처: Hacker News
초록: 우리는 단일 참조 이미지의 내부 구조—다중 스케일에 걸친 패치 분포로 정의되는—와 일치하는 이미지를 생성하는 문제를 고려한다. 최근 접근 방식은 단일 이미지에 대해 확산 모델을 학습함으로써 이 문제를 해결한다. 그러나 이러한 설정에서도 학습은 계산 비용이 많이 들며 수시간의 최적화가 필요하다. 대신 우리는 이미지의 다양한 스케일에서 추출한 패치들의 데이터셋을 이용해 이미지를 모델링한다. 이 데이터셋은 유한하고 패치의 차원이 작기 때문에, 잡음이 섞인 패치에 대한 스코어 함수를 최적의 폐쇄형 디노이저를 사용해 계산적으로 tractable하게 구할 수 있어 신경망 학습이 필요하지 않다. 우리는 이 패치 기반 디노이저를 효율적이며 학습이 필요 없는 이미지 확산 모델에 통합하고, 우리의 방법이 고전적인 패치 기반 이미지 복원 기법과 어떻게 연결되는지 설명한다. 우리의 접근법은 학습된 단일 이미지 확산 모델에 비해 최첨단 생성 품질과 다양성을 달성하며, 무조건 이미지 생성, 텍스트 기반 스타일링, 이미지 대칭화, 리타게팅 등 다양한 응용을 보여준다. 또한 우리의 방법이 잠재 공간 확산과 호환됨을 입증하고, 메가픽셀 단일 이미지 생성을 1초 안에, 기가픽셀 생성을 몇 분 안에 달성하기 위한 여러 가속 기술을 제시한다.
댓글:
CVPR 2026; 프로젝트 페이지: 이 https URL
주제:
- 컴퓨터 비전 및 패턴 인식 (cs.CV)
- 머신 러닝 (cs.LG)
인용:
arXiv:2606.04299 [cs.CV]
(또는
arXiv:2606.04299v1 [cs.CV] 이 버전에 대해)
https://doi.org/10.48550/arXiv.2606.04299
arXiv 발행 DOI via DataCite (등록 대기 중)
제출 이력
From: Haojun Qiu [이메일 보기]
[v1]
2026년 6월 3일 수요일 00:05:36 UTC (45,344 KB)