[Paper] 연속 제어를 이용한 편집 모델의 적응형 오리진 가이드
Source: arXiv - 2602.03826v1
개요
Diffusion‑기반 편집 모델은 텍스트 프롬프트를 통해 이미지와 비디오의 의미를 변경할 수 있지만, 편집 강도를 제어할 수 있는 부드러운 “다이얼”이 부족했습니다. 이 논문에서는 Adaptive‑Origin Guidance (AdaOr) 를 소개합니다. 이 기법은 모델을 재학습하거나 맞춤 데이터셋을 구축하지 않고도 편집 강도를 연속적으로 조정할 수 있게 해줍니다—원본 미디어와 완전히 편집된 출력 사이를 실제로 보간하는 슬라이더를 떠올리면 됩니다.
핵심 기여
- 전통적인 Classifier‑Free Guidance (CFG)가 확산 편집기에서 부드러운 편집 강도 제어를 제공하지 못하는 근본 원인을 식별한다.
- Adaptive‑Origin Guidance (AdaOr)를 제안한다, 이는 정적인 무조건 예측을 입력 내용을 존중하는 identity‑conditioned 예측으로 대체한다.
- identity 예측과 무조건 예측 사이에 간단한 보간 방식을 구현하여, “편집 없음”에서 “전체 편집”으로 연속적이고 단조로운 전환을 제공한다.
- 이미지 및 비디오 편집 작업 모두에서 광범위한 적용 가능성을 입증하며, 기존 슬라이더 기반 방법보다 부드러움과 일관성에서 우수한 성능을 보여준다.
- 학습 파이프라인을 변경하지 않고, 추론 시에 추가적인 “identity” 명령만 필요하게 하여, 편집당 미세조정이나 특수 데이터를 피한다.
Source: …
방법론
-
배경 – 확산 모델의 CFG
표준 CFG는 무조건적인 모델 출력(프롬프트 없음)과 조건부 출력(프롬프트 있음)을 섞어 생성물을 텍스트 방향으로 끌어당깁니다. 편집 모델에서는 무조건적인 출력이 원본 이미지가 아니라 임의의 확산 결과가 되므로 부드러운 제어가 깨집니다. -
적응형 원점
- 정체성 지시문(예: “원본 이미지를 그대로 유지”)을 도입하고 이를 일반적인 무조건 토큰과 함께 확산 모델에 입력합니다.
- 모델은 이제 두 개의 “원점”을 생성합니다:
U– 고전적인 무조건 예측(임의의 노이즈).
I– 입력을 충실히 재구성하려는 정체성‑조건부 예측.
-
가이드라인 보간
-
강도 파라미터
s ∈ [0, 1]를 정의합니다. -
혼합 원점
O_s = (1‑s)·U + s·I를 계산합니다. -
O_s를 기반으로 표준 CFG를 적용합니다:x_t = O_s + λ·(cond – O_s)여기서
λ는 일반적인 가이드 스케일입니다. -
s = 0이면 원점이 완전히 무조건이므로 강한 편집이 이루어지고,s = 1이면 원점이 정체성 예측이 되어 출력이 입력에 가깝게 유지됩니다.
-
-
구현
별도의 학습이 필요하지 않으며, 정체성 지시문을 프롬프트 어휘에 추가하고 동일한 확산 체크포인트를 추론 시 사용합니다. 이 방법은 정적 이미지와 프레임‑단위 비디오 확산 파이프라인 모두에 적용됩니다.
결과 및 발견
- 정량적 부드러움: 연속적인 편집 강도 사이의 L2 거리를 측정했으며, AdaOr는 거의 선형적인 진행을 보이는 반면, 일반 CFG는 급격한 점프를 보인다.
- 사용자 연구: 참가자들은 AdaOr 편집을 더 예측 가능하고 제어하기 쉬운 것으로 평가했으며(평균 4.6/5), 기본 슬라이더는 3.2/5였다.
- 교차‑모달 검증: 이 기법은 비디오 확산 모델에서도 작동하여 시간적 일관성을 유지하면서도 움직임이나 스타일 변화에 대한 세밀한 제어를 제공한다.
- 품질 저하 없음: 전체 강도(
s = 0)에서 AdaOr는 기존 편집 파이프라인의 시각적 품질과 동등하거나 이를 능가하며, 추가된 아이덴티티 조건이 모델의 표현력을 해치지 않음을 확인한다.
Practical Implications
- Developer-friendly APIs: 기존 diffusion‑기반 편집 서비스에 “edit_strength” 파라미터 하나만 통합하면 학습 코드를 건드릴 필요가 없습니다.
- Interactive UI/UX: 이미지/비디오 편집기(예: Photoshop 플러그인, 비디오 후반 작업 도구)를 위한 실시간 슬라이더를 구축하여 진정으로 연속적인 느낌을 제공하고, 사용자 신뢰도를 높이며 시도‑오류 사이클을 줄입니다.
- Automation pipelines: 스크립트 기반 배치 편집 시 자산별로 강도를 다르게 조정할 수 있습니다(예: 프레임마다 브랜드 로고의 강조도를 점진적으로 증가)며, 결과는 결정적입니다.
- Cost efficiency: 편집당 파인튜닝이 필요 없으므로 클라우드 추론 비용이 낮게 유지되면서도 풍부한 제어를 제공합니다—AI 기반 미디어 조작을 제공하는 SaaS 플랫폼에 가치가 있습니다.
Limitations & Future Work
- Identity instruction dependence: 정체성 조건부 예측의 품질은 모델이 “원본 유지” 토큰을 얼마나 잘 해석하도록 학습했는지에 달려 있으며, 매우 복잡한 장면에서는 여전히 흐트러질 수 있습니다.
- Guidance scale interaction: AdaOr가 편집 강도를 CFG 스케일과 분리하긴 하지만, 최적의 CFG
λ를 선택하려면 도메인마다 약간의 실험이 여전히 필요합니다. - Extending beyond diffusion: 저자들은 adaptive‑origin 개념이 다른 생성 계열(예: autoregressive 또는 GAN 기반 편집기)에도 도움이 될 수 있다고 언급하지만, 아직 탐구되지 않았습니다.
- Dataset bias: 이 방법은 기본 diffusion 모델이 “정체성” 개념이 포함된 데이터로 학습되었다고 가정합니다; 의료 영상이나 위성 데이터와 같은 특수 분야에서는 맞춤형 정체성 토큰이나 약간의 파인튜닝이 필요할 수 있습니다.
Bottom line: Adaptive‑Origin Guidance는 텍스트 기반 이미지 및 비디오 편집에 대해 정밀하고 부드러운 제어를 원하는 개발자에게 플러그‑앤‑플레이 솔루션을 제공하며, 보다 직관적인 AI 지원 창작 도구의 문을 엽니다.
저자
- Alon Wolf
- Chen Katzir
- Kfir Aberman
- Or Patashnik
논문 정보
- arXiv ID: 2602.03826v1
- Categories: cs.CV, cs.GR
- Published: 2026년 2월 3일
- PDF: Download PDF