[Paper] HiFi-Inpaint: High-Fidelity 레퍼런스 기반 인페인팅을 통한 디테일 보존 인간‑제품 이미지 생성

발행: 1일 전 (2026년 3월 3일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.02210v1

개요

이 논문은 HiFi‑Inpaint라는 레퍼런스 기반 이미지 인페인팅 시스템을 소개합니다. 이 시스템은 인간 사진에 제품을 매끄럽게 삽입하면서 제품의 모든 세밀한 디테일을 보존할 수 있습니다. 새로운 어텐션 모듈, 디테일에 초점을 맞춘 손실 함수, 그리고 40 K 이미지 데이터셋을 결합함으로써, 저자들은 생성된 인간‑제품 이미지의 사실성을 크게 향상시켰습니다. 이는 광고, 전자상거래, 가상 착용 경험 등에 필수적인 기능입니다.

주요 기여

Shared Enhancement Attention (SEA) – 인페인팅 과정에서 참조 이미지의 제품 특징을 명시적으로 정렬하고 선명하게 하는 경량 어텐션 블록.
Detail‑Aware Loss (DAL) – 고주파(에지/텍스처) 구성 요소의 오류에 페널티를 부여하는 학습 목표로, 네트워크가 선명한 제품 디테일을 재현하도록 강제합니다.
HP‑Image‑40K 데이터셋 – 자체 합성 파이프라인을 통해 생성되고 품질을 자동으로 필터링한 40 000개의 인간‑제품 쌍을 공개적으로 제공하는 컬렉션으로, 오랜 데이터 격차를 메웁니다.
최첨단 성능 – 정량적(높은 PSNR/SSIM, 낮은 LPIPS) 및 정성적 결과에서 기존 참조 기반 인페인팅 방법들을 합성 및 실제 벤치마크 모두에서 능가합니다.

Methodology

Reference‑guided pipeline – 모델은 target 이미지(제품이 나타나야 할 마스크된 영역)와 reference 제품 이미지를 입력으로 받습니다.
Shared Enhancement Attention – SEA는 두 입력으로부터 다중 스케일 특징 맵을 추출하고, 교차‑attention 점수를 계산한 뒤 가장 관련성 높은 제품 디테일을 마스크된 영역에 다시 주입합니다. 이 공유 어텐션은 여러 디코더 단계에 적용되어 섬유 조직, 로고 양각 등과 같은 섬세한 텍스처가 생성 과정에서 유지되도록 합니다.
Detail‑Aware Loss – 단순히 원시 RGB 픽셀만을 감독하는 대신, DAL은 생성 이미지와 정답 이미지 모두에 고역통과 필터(예: 라플라시안)를 적용해 고주파 맵을 얻습니다. 손실은 이러한 맵에 대한 L1 항과 일반적인 재구성 손실을 결합하여 네트워크가 가장자리와 텍스처를 픽셀 단위로 일치시키도록 유도합니다.
Training on HP‑Image‑40K – 이 데이터셋은 (마스크된 타깃, 레퍼런스, 정답) 쌍을 제공합니다. 자동 필터링을 통해 저품질 합성을 제거함으로써 모델이 다양한 포즈, 조명, 제품 카테고리에서 학습할 수 있게 합니다.

전체 아키텍처는 스킵 연결을 갖춘 표준 인코더‑디코더 구조를 유지합니다; 새로움은 SEA 모듈과 DAL 감독에 있으며, 이들이 결합되어 네트워크가 고충실도 디테일 보존을 향하도록 이끕니다.

결과 및 발견

메트릭 (높을수록 좋음)	HiFi‑Inpaint	Prior Ref‑Inpaint (예: RFR‑Inpaint)
PSNR	31.8 dB	29.4 dB
SSIM	0.94	0.90
LPIPS (낮을수록 좋음)	0.12	0.18

시각적 품질: 좌우 비교 결과 HiFi‑Inpaint가 다른 방법들이 흐리게 하거나 왜곡시키는 선명한 로고, 스티칭 패턴, 반사 표면을 유지하는 것을 보여준다.
포즈 및 조명에 대한 견고성: SEA가 가장 관련성 높은 참조 특징에 집중할 수 있는 능력 덕분에, 모델은 다양한 인간 포즈와 복잡한 배경에서도 일관되게 제품을 삽입한다.
소거 연구: SEA를 제거하면 PSNR이 약 1.2 dB 감소하고, DAL을 생략하면 LPIPS가 약 0.05 증가하여 두 구성 요소가 디테일 충실도에 필수적임을 확인한다.

실용적 시사점

E‑commerce 카탈로그 생성 – 소매업체는 비용이 많이 드는 사진 촬영 없이도 새로운 제품에 대한 모델 샷을 자동으로 생성할 수 있어, 제품의 질감과 브랜드 아이덴티티를 그대로 유지할 수 있습니다.
가상 착용 & AR – 사용자 실시간 카메라 피드에 의류, 액세서리 또는 기기를 오버레이하는 앱은 HiFi‑Inpaint를 활용해 실시간으로 사진과 같은 결과물을 제공함으로써 사용자 신뢰도를 높일 수 있습니다.
마케팅 자동화 – 에이전시는 인플루언서나 모델과 제품 이미지 라이브러리를 결합한 고품질 광고 크리에이티브를 빠르게 제작하여 제작 기간을 단축할 수 있습니다.
데이터셋 생성 – HP‑Image‑40K 데이터셋은 레퍼런스‑가이드 생성에 대한 향후 연구의 벤치마크로 활용될 수 있어, 보다 산업 중심적인 솔루션 개발을 촉진합니다.

제한 사항 및 향후 작업

도메인 이동 – 모델은 합성‑플러스‑필터링된 데이터로 훈련되었으며, HP‑Image‑40K에 포함되지 않은 극단적인 조명이나 고반사 재질에서는 성능이 저하될 수 있습니다.
계산 비용 – SEA는 추가적인 어텐션 연산을 도입하여 추론 지연 시간을 약간 증가시키며, 이는 실시간 모바일 AR에서 병목 현상이 될 수 있습니다.
단일 레퍼런스 의존 – 현재 프레임워크는 하나의 깨끗한 제품 레퍼런스를 가정하며, 다중 또는 부분적으로 가려진 레퍼런스를 처리하는 것은 아직 해결되지 않은 과제입니다.

향후 방향으로는 어텐션 메커니즘을 다중 레퍼런스 시나리오로 확장하고, 엣지 디바이스에 맞게 아키텍처를 최적화하며, 시뮬‑투‑리얼 격차를 더욱 줄이기 위해 보다 다양한 실제 촬영 데이터로 데이터셋을 풍부하게 하는 것이 포함됩니다.

저자

Yichen Liu
Donghao Zhou
Jie Wang
Xin Gao
Guisheng Liu
Jiatong Li
Quanwei Zhang
Qiang Lyu
Lanqing Guo
Shilei Wen
Weiqiang Wang
Pheng-Ann Heng

논문 정보

arXiv ID: 2603.02210v1
분류: cs.CV
출판일: 2026년 3월 2일
PDF: PDF 다운로드

[Paper] HiFi-Inpaint: High-Fidelity 레퍼런스 기반 인페인팅을 통한 디테일 보존 인간‑제품 이미지 생성

개요

주요 기여

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Sketch2Colab: 스케치 기반 다중 인간 애니메이션 via 제어 가능한 Flow Distillation

[Paper] Kiwi-Edit: 지시와 레퍼런스 가이드를 통한 다목적 비디오 편집

[Paper] 크면 언제나 더 좋을까? 자원 제한이 있는 소형 객체 탐지에서 효율성 분석

[Paper] OmniRet: 효율적이고 고충실도 전모달리티 검색