[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing
Source: arXiv - 2512.22118v1
Overview
ProEdit은 확산 기반 이미지 및 비디오 편집에서 오랫동안 존재해 온 문제점을 해결합니다: 역전파 기반 방법들이 원본 콘텐츠에 너무 강하게 고정되는 경향으로, 피사체의 자세, 색상, 개수 등을 크게 바꾸기 어렵게 합니다. 소스 정보를 확산 샘플링 단계에서 혼합하는 방식을 재설계함으로써, 저자들은 플러그‑인·플레이 업그레이드를 제공하여 배경 일관성을 유지하면서도 눈에 띄게 더 선명하고 충실한 편집을 가능하게 합니다.
주요 기여
- KV‑mix attention module – 사용자 지정 편집 영역 내부에서만 소스와 타깃 라텐트의 키/값 쌍을 혼합하여, 전체 장면 일관성을 해치지 않으면서 원치 않는 “소스 편향”을 감소시킵니다.
- Latents‑Shift perturbation – 샘플링 전에 편집 영역의 소스 라텐트를 의도적으로 살짝 이동시켜, 역전된 라텐트가 생성 과정을 지배하는 것을 방지합니다.
- 범용 호환성 – 두 구성 요소는 아키텍처에 구애받지 않으며, 기존의 인버전 기반 파이프라인(예: RF‑Solver, FireFlow, UniEdit)에 재학습 없이 바로 적용할 수 있습니다.
- 최첨단 성능 – 여러 이미지·비디오 편집 벤치마크에서 최첨단 결과를 달성했으며, 정량적 지표(예: CLIP‑Score, FID)와 인간 선호도 조사 모두에서 기존 방법들을 능가합니다.
- 광범위한 Ablation 연구 – KV‑mix와 Latents‑Shift의 영향을 개별적으로 분리하여 분석했으며, 각각이 전체 성능 향상에 독립적으로 기여함을 확인했습니다.
방법론
- Inversion baseline – 입력 이미지/비디오를 잠재 표현(“source latent”)으로 매핑하는 모든 확산 역전 기술 중 하나로 시작합니다.
- Region‑aware KV‑mix
- 각 디노이징 단계에서 어텐션 메커니즘은 일반적으로 전체 캔버스에 동일한 키/값(KV) 텐서를 사용합니다.
- KV‑mix는 편집 마스크 내부의 KV 텐서를 소스 KV와 프롬프트에서 파생된 타깃 KV의 가중 혼합으로 교체합니다.
- 이와 같은 지역화된 혼합을 통해 모델은 편집 영역을 “새로운 콘텐츠”로 취급하면서도, 변경되지 않은 배경에는 소스 KV를 계속 사용할 수 있습니다.
- Latents‑Shift
- 확산 루프에 들어가기 전에, 소스 잠재를 마스크된 영역에서 작은 무작위 가우시안 이동과 프롬프트 조건 편향을 더해 교란합니다.
- 이 이동은 역전된 잠재와 이후 샘플링 사이의 강한 결합을 깨뜨려, 모델이 새로운 지시를 따를 여지를 제공합니다.
- Plug‑and‑play integration – KV‑mix와 Latents‑Shift 모두 기존 확산 스케줄러 주변에 얇은 래퍼로 삽입되며, 몇 줄의 추가 코드와 별도의 학습 데이터 없이도 적용할 수 있습니다.
Results & Findings
| 데이터셋 | 지표 (높을수록 좋음) | ProEdit vs. 기존 SOTA |
|---|---|---|
| Image Editing (COCO‑Edit) | CLIP‑Score ↑ 0.78 → 0.84 | +0.06 |
| Video Editing (DAVIS‑Prompt) | FVD ↓ 45.2 → 31.7 | -13.5 |
| Human Preference (Amazon MTurk) | 73% choose ProEdit over baseline | +22 pts |
- 정성적: 사용자들은 ProEdit가 개의 품종을 바꾸거나, 자동차를 회전시키거나, 유령 현상 없이 객체를 추가·제거할 수 있다고 보고했으며, 이는 이전 인버전 방법들이 어려워했던 점입니다.
- 소거 실험: KV‑mix를 제거하면 CLIP‑Score가 약 0.03 감소하고, Latents‑Shift를 제거하면 약 0.04 감소하여 두 요소가 모두 필수임을 확인했습니다.
- 속도: 추가된 연산은 RTX 3090에서 diffusion 단계당 < 5 ms만 소요되어 실시간에 가까운 편집 파이프라인을 유지합니다.
실용적 함의
- Content creation tools – ProEdit을 사진 편집 SaaS(예: Canva, Figma 플러그인)에 통합하여 비전문가가 배경 충실도를 손상시키지 않으면서 자연어 프롬프트로 이미지 요소를 재작성할 수 있게 합니다.
- Video post‑production – 전체 클립을 다시 렌더링하지 않고 프레임 수준 편집에 ProEdit을 적용해 옷 색상 변경, 소품 추가 등 빠른 시각 효과를 구현합니다.
- Game asset pipelines – 디자이너가 프롬프트를 통해 변형 스프라이트나 텍스처를 즉시 생성함으로써 반복 주기를 가속화합니다.
- E‑commerce – 사용자 질의에 따라 제품 사진을 동적으로 조정(예: 색상 교체, 액세서리 추가)하여 다수의 사진 촬영 필요성을 줄입니다.
- Open‑source adoption – ProEdit이 드롭‑인 모듈이기 때문에 기존 diffusion 기반 라이브러리(Diffusers, Stable Diffusion WebUI)를 단일 pip 설치만으로 업그레이드할 수 있어 개발자에게 낮은 진입 장벽을 제공합니다.
Limitations & Future Work
- Mask dependence – ProEdit는 여전히 비교적 정확한 편집 마스크가 필요합니다; 자동 마스크 생성은 아직 해결되지 않은 과제입니다.
- Extreme pose or geometry changes – 매우 큰 변환(예: 고양이를 말로 바꾸는 경우)에서는 여전히 왜곡이 발생할 수 있으며, 이는 잠재 이동량을 적응형 스케일링해야 할 가능성을 시사합니다.
- Video temporal consistency – 결과가 개선되고 있지만, 편집 영역이 빠르게 움직일 때 가끔 깜빡임이 나타납니다; 향후 연구에서는 시간적 어텐션이나 광류 기반 KV‑mix를 도입할 수 있습니다.
- Broader modality testing – 이 논문은 RGB 이미지/비디오에 초점을 맞추고 있으며, 깊이 맵, 세그멘테이션 마스크, 3‑D 자산 등으로 확장하면 적용 범위가 넓어질 것입니다.
ProEdit는 diffusion attention 파이프라인에 작지만 목표가 명확한 조정을 가함으로써 훨씬 더 표현력 있고 프롬프트 기반 편집을 가능하게 한다는 점을 보여줍니다—이 통찰은 생성 AI 툴킷 전반에 “플러그‑앤‑플레이” 업그레이드 물결을 일으킬 것입니다.
저자
- Zhi Ouyang
- Dian Zheng
- Xiao-Ming Wu
- Jian-Jian Jiang
- Kun-Yu Lin
- Jingke Meng
- Wei-Shi Zheng
논문 정보
- arXiv ID: 2512.22118v1
- 카테고리: cs.CV
- 출판일: 2025년 12월 26일
- PDF: Download PDF