[Paper] InverFill: 향상된 Few-Step Diffusion Inpainting을 위한 One-Step Inversion

발행: 1일 전 (2026년 3월 25일 AM 02:32 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.23463v1

Overview

InverFill은 diffusion‑기반 이미지 인페인팅에서 실용적인 병목 현상인 수십 번의 샘플링 단계가 필요하다는 문제를 해결합니다. 초기 노이즈 생성 방식을 재설계함으로써, 저자들은 몇 단계의 diffusion만으로도 고품질 인페인팅을 가능하게 하여, 실시간 또는 프로덕션 환경에서 기술을 훨씬 더 활용 가능하게 만들었습니다.

주요 기여

인페인팅을 위한 원스텝 역전: 마스크된 입력으로부터 의미적 단서를 직접 확산 모델의 시작 노이즈에 주입하는 새로운 기법.
플러그‑앤‑플레이 파이프라인: 기존의 몇 단계 텍스트‑투‑이미지 확산 모델과 바로 사용할 수 있으며, 전용 인페인팅 네트워크의 추가 학습이 필요하지 않음.
뛰어난 품질 향상: 전문 인페인팅 모델에 필적하는 이미지 충실도와 텍스트‑이미지 정렬을 달성하면서도 함수 평가 횟수(NFEs)를 크게 줄임.
최소한의 오버헤드: 가벼운 전처리 단계만 추가하여 몇 단계 확산의 속도 이점을 유지함.
광범위한 적용 가능성: Stable Diffusion, Denoising Diffusion Implicit Models 등 여러 인기 있는 확산 백본 전반에 걸쳐 개선 효과를 입증함.

방법론

문제 진단 – 저자들은 먼저 순수 가우시안 노이즈로 확산을 초기화하는 표준 관행이, 소수의 디노이징 단계만 수행될 때 의미적 드리프트를 일으켜 색상, 질감, 객체 배치가 일치하지 않게 만든다는 것을 보여준다.
시맨틱 노이즈 주입 – InverFill은 얕은 인코더를 사용해 보이는(마스크되지 않은) 영역의 거친 표현을 추출한다. 이 표현은 무작위 노이즈에 추가되어 시맨틱하게 정렬된 잠재 표현을 만든다.
블렌드 샘플링 – 정렬된 노이즈는 기존의 소수 단계 텍스트‑투‑이미지 확산 모델에 입력된다. 샘플링 중에 모델의 예측은 원래의 마스크되지 않은 픽셀과 블렌드되어 배경 일관성을 유지한다.
원스텝 역전 – 전체 정렬 과정은 단일 전방 패스로 수행되어 반복 최적화나 추가 확산 루프를 피한다.

파이프라인은 다음과 같이 시각화할 수 있다:

masked image → shallow encoder → semantic map → add to Gaussian noise → few‑step diffusion → blend with original background → final inpainted image

Results & Findings

모델 (baseline)	NFEs	PSNR ↑	SSIM ↑	CLIP‑Score ↑
Stable Diffusion (4‑step)	4	27.8	0.91	0.78
+ InverFill	4	30.2	0.94	0.84
Denoising Diffusion Implicit Model (6‑step)	6	28.5	0.92	0.80
+ InverFill	6	31.0	0.95	0.86

시각 품질: 옆‑옆 비교에서 InverFill은 일반적인 few‑step 인페인팅에서 흔히 발생하는 “halo”와 색상 이동 아티팩트를 제거합니다.
텍스트 일관성: 생성된 내용은 텍스트 프롬프트를 전용 지도 학습 인페인팅 모델만큼(또는 그보다) 잘 따릅니다.
속도: 역전 단계가 가벼운 인코더를 통한 단일 전방 패스이기 때문에 전체 추론 시간은 기본 few‑step 모델 대비 ≈10 % 증가하지만, 50‑100 단계 파이프라인보다 여전히 훨씬 빠릅니다.

실용적 함의

실시간 편집 도구 – 사진 편집 SaaS 플랫폼은 품질을 희생하지 않고도 거의 즉시 인페인팅(예: 객체 제거, 배경 교체)을 제공할 수 있습니다.
모바일 및 엣지 배포 – 낮은 NFE 수와 아주 적은 추가 연산량 덕분에 메모리가 제한된 GPU나 온‑디바이스 가속기에서도 실행이 가능합니다.
콘텐츠 제작 파이프라인 – 자동화된 비디오 후처리(프레임별 인페인팅)는 속도‑품질 트레이드오프의 이점을 활용해 더 높은 프레임 레이트를 구현할 수 있습니다.
플러그‑앤‑플레이 통합 – 기존 Diffusion API(예: Stability AI, Replicate)는 InverFill을 사전 처리 훅으로 추가함으로써 비용이 많이 드는 모델 재학습 없이 채택할 수 있습니다.

제한 사항 및 향후 작업

시맨틱 인코더 단순성 – 현재 얕은 인코더는 매우 복잡한 장면에서 세밀한 단서를 놓칠 수 있으며, 보다 표현력이 풍부한 인코더가 정렬을 더욱 향상시킬 수 있습니다.
마스크 형태 민감도 – 매우 불규칙하거나 매우 큰 마스크는 여전히 약간의 텍스처 불일치를 일으킬 수 있어, 적응형 블렌딩 전략이 필요함을 시사합니다.
다른 모달리티에 대한 일반화 – 이 논문은 RGB 이미지에 초점을 맞추고 있으며, 접근 방식을 비디오, 깊이 맵 또는 다중 모달 생성으로 확장하는 것은 아직 열려 있는 과제입니다.

InverFill은 확산 초기화에 대한 영리한 조정이 전통적으로 요구되는 무거운 학습 부담 없이도 빠르고 고품질의 인페인팅을 가능하게 한다는 것을 보여줍니다—AI 기반 시각 도구를 구축하는 모든 사람에게 흥미로운 발전입니다.

저자

Duc Vu
Kien Nguyen
Trong‑Tung Nguyen
Ngan Nguyen
Phong Nguyen
Khoi Nguyen
Cuong Pham
Anh Tran

논문 정보

arXiv ID: 2603.23463v1
분류: cs.CV, cs.AI
출판일: 2026년 3월 24일
PDF: PDF 다운로드

[Paper] InverFill: 향상된 Few-Step Diffusion Inpainting을 위한 One-Step Inversion

Overview

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] MedObvious: Clinical Triage를 이용한 VLM에서의 Medical Moravec's Paradox 공개

[Paper] VISion On Request: 희소하고 동적으로 선택된 비전-언어 상호작용을 통한 VLLM 효율성 향상

[Paper] VTAM: 복잡한 물리적 상호작용을 위한 Video‑Tactile‑Action Models, VLAs를 넘어

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델