[Paper] ReCap: 일관된 스토리 시각화를 위한 경량 레퍼런셜 그라운딩

발행: 16시간 전 (2026년 4월 21일 AM 02:57 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2604.18575v1

Overview

이 논문은 ReCap이라는 가벼운 애드온을 소개합니다. 이는 diffusion 모델 기반 스토리‑시각화 시스템에서 캐릭터와 장면 레이아웃의 일관성을 크게 향상시킵니다. 대명사가 나타날 때만 활성화되는 작은 조건부 모듈을 도입함으로써, ReCap은 모델 크기를 늘리거나 추론 속도를 늦추지 않고 시각적 정체성을 안정적으로 유지합니다. 이를 통해 FlintstonesSV와 PororoSV 벤치마크에서 새로운 state‑of‑the‑art 성능을 달성했습니다.

주요 기여

CORE (COnditional frame REferencing) – 현재 캡션에 대명사(지시 대명사)가 포함된 경우에만 이전 프레임을 기준으로 diffusion 단계를 조건화하는 149 K 파라미터 플러그인으로, 대명사를 시각적 앵커로 전환합니다.
SemDrift (Guided Semantic Drift Correction) – 학습 시 정규화 기법으로, 디노이저의 잠재 표현을 사전 학습된 DINOv3 시각 임베딩과 정렬하여 텍스트가 모호할 때 발생하는 미세한 정체성 드리프트를 방지합니다.
Zero inference overhead – CORE와 SemDrift 모두 지연 시간을 거의 추가하지 않으며, 기본 diffusion 백본은 그대로 유지됩니다.
State‑of‑the‑art results – FlintstonesSV에서 문자 정확도가 +2.63 %, PororoSV에서 +5.65 % 향상되어 이전 최고 기록(StoryGPT‑V)을 능가합니다.
Generalization to real‑world, human‑centric narratives – 영화에서 추출한 스토리 스크립트에 적용해 실증했으며, 이 방법이 만화 스타일 데이터셋을 넘어 실제 인간 중심 내러티브에도 일반화됨을 보여줍니다.

방법론

참조 토큰 감지 – 각 프레임의 캡션을 파싱합니다; 대명사(예: “he”, “she”, “they”)가 발견될 때마다 CORE가 트리거됩니다.
조건부 프레임 참조 – CORE는 이전에 생성된 프레임의 잠재 표현을 가져와 현재 텍스트 임베딩과 연결합니다. 이 결합된 신호는 확산 디노이저에 입력되어 이미 설정된 시각적 속성(머리 색, 의복, 포즈)을 재사용하도록 안내합니다.
시맨틱 드리프트 보정 (학습 전용) – 학습 중에 모델의 중간 디노이저 표현을 고정된 DINOv3 시각 공간에 투영합니다. 대비 손실이 이 투영을 실제 참조 이미지의 임베딩에 가깝게 유지하도록 하여, 캡션에 명시적 설명이 없더라도 네트워크가 의미를 보존하도록 장려합니다.
경량 통합 – CORE는 텍스트 인코더 뒤에 배치된 작은 교차‑어텐션 블록으로 구현됩니다; 파라미터가 149 K만 추가되어, 이전 연구에서 사용된 메모리 뱅크나 대형 언어 모델 어댑터가 추가한 수백만 파라미터에 비해 극히 적습니다.

결과 및 발견

벤치마크	메트릭 (높을수록 좋음)	ReCap	이전 SOTA (StoryGPT‑V)	Δ
FlintstonesSV	캐릭터 정확도	84.2 %	81.6 %	+2.63 %
PororoSV	캐릭터 정확도	78.9 %	73.2 %	+5.65 %

시각적 충실도 – 정성적 샘플에서 “정체성 전환”(예: 캐릭터의 셔츠 색상이 이야기 중간에 바뀌는 현)이 현저히 감소함.
추론 속도 – 프레임당 실제 측정 시간은 기본 디퓨전 베이스라인보다 1 % 이내이며, 무부하 주장을 확인함.
도메인 간 견고성 – 짧은 영화 스크립트(인간 캐릭터, 사실적인 아트 스타일)에 적용했을 때, ReCap은 일관된 얼굴과 의상을 유지하지만, 베이스라인 디퓨전 모델은 빈번한 드리프트를 보임.

실용적 함의

게임 및 애니메이션 파이프라인 – 스튜디오는 ReCap을 기존 확산 기반 자산 생성기에 연결하여 캐릭터 디자인을 안정적으로 유지하는 스토리보드 시퀀스를 생성할 수 있어 수동 보정을 줄일 수 있습니다.
인터랙티브 스토리텔링 앱 – 실시간 채팅 기반 일러스트레이션 도구는 이제 전체 메모리 뱅크를 사전 계산하지 않고도 대명사 기반 참조에 의존할 수 있어 소비자 기기에서 지연 시간을 낮게 유지합니다.
콘텐츠 모더레이션 및 일관성 감사 – 생성 모델 자체가 일관성을 강제할 때 캐릭터 연속성에 대한 자동 검사가 더욱 신뢰할 수 있게 되어 하위 QA를 단순화합니다.
저자원 배포 – ReCap은 약 150 K 파라미터만 추가하므로 엣지 GPU나 모바일 가속기에 여유 있게 탑재될 수 있어 디바이스 내 스토리 생성의 문을 엽니다.

제한 사항 및 향후 작업

Pronoun Detection Dependency – CORE는 명시적인 대명사에만 작동하며, 모호한 언급(예: “the hero”)은 처리되지 않아 일부 drift 사례가 해결되지 않는다.
Training‑Only SemDrift – 추론 비용이 전혀 없지만, SemDrift는 사전 학습된 DINOv3 모델과 추가 학습 에포크에 접근해야 하며, 이는 매우 큰 diffusion 백본에 대해 부담이 될 수 있다.
Domain Shift – 이 방법은 만화 스타일 데이터셋과 제한된 영화 스크립트에 대해 평가되었으며, 고도로 사진실감이 있거나 추상적인 예술 스타일에 대한 성능은 아직 미지수이다.
Future Directions – 저자들은 CORE를 명사구 코어퍼런스를 처리하도록 확장하고, 경량 언어 모델 신호를 통합하며, 추론 시 토글할 수 있는 적응형 drift 보정 기능을 탐색하는 것을 제안한다.

저자

Aditya Arora
Akshita Gupta
Pau Rodriguez
Marcus Rohrbach

논문 정보

arXiv ID: 2604.18575v1
분류: cs.CV
출판일: 2026년 4월 20일
PDF: PDF 다운로드

[Paper] ReCap: 일관된 스토리 시각화를 위한 경량 레퍼런셜 그라운딩

Overview

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] MUA: 모바일 초고해상도 애니메이션 가능한 아바타

[Paper] T-REN: Text-Aligned Region Tokens 학습이 Dense Vision-Language Alignment와 Scalability를 향상시킨다

[Paper] MultiWorld: 확장 가능한 다중 에이전트 다중 뷰 비디오 월드 모델

[Paper] SynAgent: 일반화 가능한 협동 휴머노이드 매니퓰레이션 via 솔로-투-협동 에이전트 시너지