[Paper] VideoSketcher: Video Models Prior가 다목적 순차 스케치 생성을 가능하게 함

발행: 3일 전 (2026년 2월 18일 오전 03:55 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.15819v1

개요

논문 VideoSketcher는 정적인 이미지가 아니라 스트로크 시퀀스로 스케치를 생성하는 새로운 방식을 제시합니다. 사전 학습된 텍스트‑투‑비디오 디퓨전 모델을 재활용함으로써, 저자들은 사용자가 지정한 스트로크 순서를 따르는 현실적인 그리기 과정을 합성할 수 있게 되었으며, 이는 보다 인터랙티브하고 제어 가능한 스케치 생성 도구의 가능성을 열어줍니다.

핵심 기여

연속 스케치 생성: 비디오 확산 모델을 사용하여 스케치를 짧은 비디오로 간주하고, 각 프레임에 새로운 스트로크를 추가합니다.
두 단계 파인‑튜닝: 먼저 합성 형태 구성에서 스트로크 순서를 학습하고, 그 다음 일곱 개의 인간이 그린 스케치 비디오만으로 시각적 외관을 학습합니다.
LLM‑구동 의미 계획: 대형 언어 모델이 자연어 지시를 제공하여 스트로크 순서를 결정합니다.
확장 가능한 제어 메커니즘, 브러시‑스타일 컨디셔닝 및 자동 회귀 생성 포함, 협업 드로잉 시나리오를 지원합니다.
데이터 효율성: 비디오 생성 모델에 일반적으로 필요한 데이터의 일부만으로도 고품질 결과를 달성합니다.

방법론

스케치를 비디오로 표현 – 각 스케치는 빈 캔버스에서 시작해 점차 스트로크를 추가하는 프레임 시퀀스로 인코딩됩니다.
사전 학습된 모델 활용 – 대규모 비디오 코퍼스로 학습된 텍스트‑투‑비디오 확산 모델을 강력한 렌더러로 사용하여 시간적으로 일관된 프레임을 생성합니다.
두 단계 파인튜닝
- Stage 1 (ordering): 알려진 스트로크 순서를 가진 단순 기하학 도형의 합성 데이터셋을 생성합니다. 모델은 텍스트 순서 힌트(예: “먼저 원을 그리고, 그 다음에 사각형을 그려”)를 올바른 시간 진행에 매핑하는 방법을 학습합니다.
- Stage 2 (appearance): 실제 스케치 비디오 소수(≈7개)를 사용해 손으로 그린 스트로크의 시각적 스타일—선 두께, 음영, 미세한 진동 등을 모델에 가르칩니다.
LLM 통합 – LLM이 사용자 프롬프트를 파싱해 순서가 지정된 그리기 명령 리스트를 생성하고, 이를 조건 토큰으로 확산 모델에 전달합니다.
확장 기능 – 브러시‑스타일 토큰과 자동회귀 루프를 통해 시스템이 펜 속성을 실시간으로 변경하거나 두 번째 에이전트가 부분적으로 그린 스케치를 이어서 그릴 수 있게 합니다.

결과 및 발견

고충실도 스트로크 시퀀스: 생성된 비디오는 부드럽고 시간적으로 일관된 스트로크 추가를 보여주며, 테스트 프롬프트의 90 % 이상에서 지정된 순서를 맞춥니다.
시각적 사실성: 인간 스케치를 몇 개만 사용해 훈련했음에도 불구하고, 출력은 손으로 그린 선의 미묘한 질감(예: 압력 변화, 약간의 흔들림)을 포착합니다.
다양한 프롬프트에 대한 견고성: 시스템은 “먼저 윤곽을 스케치하고, 그 다음에 음영을 채워라”와 같은 복잡한 지시를 처리하고 구성 요소의 계층 구조를 존중합니다.
제어 유연성: 사용자는 생성 중간에 브러시 스타일을 전환하거나 모델에게 부분적으로 완료된 그림을 이어 그리도록 요청할 수 있어, 인터랙티브한 잠재력을 보여줍니다.

실용적 시사점

디자인 프로토타이핑 도구 – UI/UX 디자이너는 텍스트 개념으로부터 단계별 스케치 초안을 생성하여 아이디어 발상을 가속화할 수 있다.
교육용 소프트웨어 – 서예, 기술 일러스트레이션, 혹은 미술 수업을 위한 그리기 순서를 보여주는 인터랙티브 튜토리얼.
창의적 AI 어시스턴트 – 아티스트는 “고양이를 그려, 머리부터 시작해”와 같은 고수준 명령을 내리고, 편집하거나 확장할 수 있는 실시간 스케치 과정을 받을 수 있다.
게임 개발 – 시간에 따라 진화하는 손그림 자산(예: 스토리보드, 컨셉 아트)을 절차적으로 생성하여 동적인 시각적 매력을 더한다.
협업 드로잉 플랫폼 – 여러 사용자가 공유 스케치에 기여할 수 있으며, 모델은 각 참여자의 스트로크를 부드럽게 시간적으로 통합한다.

제한 사항 및 향후 연구

데이터 부족 – 인상적이지만, 모델의 시각적 스타일은 미세 조정에 사용된 제한된 인간 스케치 비디오에 묶여 있습니다; 보다 다양한 스타일을 위해서는 더 많은 주석 데이터가 필요할 수 있습니다.
복잡한 장면 – 현재 실험은 비교적 단순한 구성을 중심으로 진행되었습니다; 복잡하고 다중 객체 장면으로 확장하면 순서 지정 모듈에 도전이 될 수 있습니다.
실시간 성능 – 확산 모델은 계산 비용이 많이 듭니다; 낮은 지연 시간의 인터랙티브 드로잉을 구현하는 것은 여전히 엔지니어링 과제입니다.
사용자 의도 모호성 – LLM이 자연어를 정확한 스트로크 순서로 변환하는 과정에서 모호한 프롬프트를 오해할 수 있습니다; 향후 연구에서는 명확화 대화를 도입할 수 있습니다.

VideoSketcher는 대규모 비디오 확산 모델과 언어 기반 계획을 결합함으로써 드로잉의 시간적 특성을 존중하는 새로운 유형의 생성 도구를 열 수 있음을 보여줍니다—보다 표현력 있고 제어 가능한 AI 지원 창의성으로 나아가는 흥미로운 단계입니다.

저자

Hui Ren
Yuval Alaluf
Omer Bar Tal
Alexander Schwing
Antonio Torralba
Yael Vinker

논문 정보

arXiv ID: 2602.15819v1
분류: cs.CV
발행일: 2026년 2월 17일
PDF: PDF 다운로드

[Paper] VideoSketcher: Video Models Prior가 다목적 순차 스케치 생성을 가능하게 함

개요

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] OpenEarthAgent: 툴 기반 지리공간 에이전트를 위한 통합 프레임워크

[Paper] 시각이 언어를 압도할 때: VLAs에서 반사실적 실패 평가 및 완화

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] IntRec: Intent 기반 Retrieval with Contrastive Refinement