[Paper] 연속 제어를 이용한 편집 모델의 적응형 오리진 가이드

발행: (2026년 2월 4일 오전 03:33 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.03826v1

개요

Diffusion‑기반 편집 모델은 텍스트 프롬프트를 통해 이미지와 비디오의 의미를 변경할 수 있지만, 편집 강도를 제어할 수 있는 부드러운 “다이얼”이 부족했습니다. 이 논문에서는 Adaptive‑Origin Guidance (AdaOr) 를 소개합니다. 이 기법은 모델을 재학습하거나 맞춤 데이터셋을 구축하지 않고도 편집 강도를 연속적으로 조정할 수 있게 해줍니다—원본 미디어와 완전히 편집된 출력 사이를 실제로 보간하는 슬라이더를 떠올리면 됩니다.

핵심 기여

  • 전통적인 Classifier‑Free Guidance (CFG)가 확산 편집기에서 부드러운 편집 강도 제어를 제공하지 못하는 근본 원인을 식별한다.
  • Adaptive‑Origin Guidance (AdaOr)를 제안한다, 이는 정적인 무조건 예측을 입력 내용을 존중하는 identity‑conditioned 예측으로 대체한다.
  • identity 예측과 무조건 예측 사이에 간단한 보간 방식을 구현하여, “편집 없음”에서 “전체 편집”으로 연속적이고 단조로운 전환을 제공한다.
  • 이미지 및 비디오 편집 작업 모두에서 광범위한 적용 가능성을 입증하며, 기존 슬라이더 기반 방법보다 부드러움과 일관성에서 우수한 성능을 보여준다.
  • 학습 파이프라인을 변경하지 않고, 추론 시에 추가적인 “identity” 명령만 필요하게 하여, 편집당 미세조정이나 특수 데이터를 피한다.

Source:

방법론

  1. 배경 – 확산 모델의 CFG
    표준 CFG는 무조건적인 모델 출력(프롬프트 없음)과 조건부 출력(프롬프트 있음)을 섞어 생성물을 텍스트 방향으로 끌어당깁니다. 편집 모델에서는 무조건적인 출력이 원본 이미지가 아니라 임의의 확산 결과가 되므로 부드러운 제어가 깨집니다.

  2. 적응형 원점

    • 정체성 지시문(예: “원본 이미지를 그대로 유지”)을 도입하고 이를 일반적인 무조건 토큰과 함께 확산 모델에 입력합니다.
    • 모델은 이제 두 개의 “원점”을 생성합니다:
      U – 고전적인 무조건 예측(임의의 노이즈).
      I – 입력을 충실히 재구성하려는 정체성‑조건부 예측.
  3. 가이드라인 보간

    • 강도 파라미터 s ∈ [0, 1]를 정의합니다.

    • 혼합 원점 O_s = (1‑s)·U + s·I를 계산합니다.

    • O_s를 기반으로 표준 CFG를 적용합니다:

      x_t = O_s + λ·(cond – O_s)

      여기서 λ는 일반적인 가이드 스케일입니다.

    • s = 0이면 원점이 완전히 무조건이므로 강한 편집이 이루어지고, s = 1이면 원점이 정체성 예측이 되어 출력이 입력에 가깝게 유지됩니다.

  4. 구현
    별도의 학습이 필요하지 않으며, 정체성 지시문을 프롬프트 어휘에 추가하고 동일한 확산 체크포인트를 추론 시 사용합니다. 이 방법은 정적 이미지와 프레임‑단위 비디오 확산 파이프라인 모두에 적용됩니다.

결과 및 발견

  • 정량적 부드러움: 연속적인 편집 강도 사이의 L2 거리를 측정했으며, AdaOr는 거의 선형적인 진행을 보이는 반면, 일반 CFG는 급격한 점프를 보인다.
  • 사용자 연구: 참가자들은 AdaOr 편집을 더 예측 가능하고 제어하기 쉬운 것으로 평가했으며(평균 4.6/5), 기본 슬라이더는 3.2/5였다.
  • 교차‑모달 검증: 이 기법은 비디오 확산 모델에서도 작동하여 시간적 일관성을 유지하면서도 움직임이나 스타일 변화에 대한 세밀한 제어를 제공한다.
  • 품질 저하 없음: 전체 강도(s = 0)에서 AdaOr는 기존 편집 파이프라인의 시각적 품질과 동등하거나 이를 능가하며, 추가된 아이덴티티 조건이 모델의 표현력을 해치지 않음을 확인한다.

Practical Implications

  • Developer-friendly APIs: 기존 diffusion‑기반 편집 서비스에 “edit_strength” 파라미터 하나만 통합하면 학습 코드를 건드릴 필요가 없습니다.
  • Interactive UI/UX: 이미지/비디오 편집기(예: Photoshop 플러그인, 비디오 후반 작업 도구)를 위한 실시간 슬라이더를 구축하여 진정으로 연속적인 느낌을 제공하고, 사용자 신뢰도를 높이며 시도‑오류 사이클을 줄입니다.
  • Automation pipelines: 스크립트 기반 배치 편집 시 자산별로 강도를 다르게 조정할 수 있습니다(예: 프레임마다 브랜드 로고의 강조도를 점진적으로 증가)며, 결과는 결정적입니다.
  • Cost efficiency: 편집당 파인튜닝이 필요 없으므로 클라우드 추론 비용이 낮게 유지되면서도 풍부한 제어를 제공합니다—AI 기반 미디어 조작을 제공하는 SaaS 플랫폼에 가치가 있습니다.

Limitations & Future Work

  • Identity instruction dependence: 정체성 조건부 예측의 품질은 모델이 “원본 유지” 토큰을 얼마나 잘 해석하도록 학습했는지에 달려 있으며, 매우 복잡한 장면에서는 여전히 흐트러질 수 있습니다.
  • Guidance scale interaction: AdaOr가 편집 강도를 CFG 스케일과 분리하긴 하지만, 최적의 CFG λ를 선택하려면 도메인마다 약간의 실험이 여전히 필요합니다.
  • Extending beyond diffusion: 저자들은 adaptive‑origin 개념이 다른 생성 계열(예: autoregressive 또는 GAN 기반 편집기)에도 도움이 될 수 있다고 언급하지만, 아직 탐구되지 않았습니다.
  • Dataset bias: 이 방법은 기본 diffusion 모델이 “정체성” 개념이 포함된 데이터로 학습되었다고 가정합니다; 의료 영상이나 위성 데이터와 같은 특수 분야에서는 맞춤형 정체성 토큰이나 약간의 파인튜닝이 필요할 수 있습니다.

Bottom line: Adaptive‑Origin Guidance는 텍스트 기반 이미지 및 비디오 편집에 대해 정밀하고 부드러운 제어를 원하는 개발자에게 플러그‑앤‑플레이 솔루션을 제공하며, 보다 직관적인 AI 지원 창작 도구의 문을 엽니다.

저자

  • Alon Wolf
  • Chen Katzir
  • Kfir Aberman
  • Or Patashnik

논문 정보

  • arXiv ID: 2602.03826v1
  • Categories: cs.CV, cs.GR
  • Published: 2026년 2월 3일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.