[Paper] RhymeFlow: 학습 없이 비디오 생성을 가속하는 비동기 디노이징 흐름 스케줄링

발행: 6일 전 (2026년 6월 5일 AM 12:49 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.06309v1

Overview

Diffusion Transformer (DiT) 기반 비디오 생성 모델은 비디오 합성에서 눈에 띄는 성능을 달성했지만, 3D 어텐션의 이차 복잡도 때문에 추론 지연 시간과 계산 비용이 높습니다. 기존 가속화 방법은 주로 희소 어텐션 및 KV‑caching과 같은 기술을 통해 각 디노이징 단계 내의 계산 복잡성을 감소시키는 데 초점을 맞춥니다. 그러나 이러한 방법은 표준 디퓨전 파이프라인의 고유 제약, 즉 목표 비디오 시퀀스의 모든 프레임이 모든 디퓨전 타임스텝에 걸쳐 완전하고 밀집된 디노이징 과정을 거쳐야 한다는 제약을 경직되게 따릅니다.

우리는 인접 프레임 간의 내용과 움직임이 서로 연관되어 있기 때문에, 중요한 의미 전환을 포함하는 키프레임이 고정될 때 나머지 프레임들의 중간 상태는 보다 예측 가능한 궤적을 따르는 경우가 많다는 점을 관찰했습니다. 이는 자연 비디오 데이터에 대해 이러한 균일하고 밀집된 디노이징 과정이 본질적으로 중복된다는 것을 의미합니다.

이를 위해 우리는 RhymeFlow라는 훈련 없이 사용할 수 있는 프레임별 디노이징 궤적을 분리하는 프레임워크를 제안합니다. 구체적으로, 먼저 잠재 의미 진화를 지배하는 희소한 핵심 키프레임 집합을 식별합니다. 그런 다음 이 키프레임들만이 구조적 완전성을 보장하기 위해 단계별 밀집 디노이징을 수행하고, 비키프레임은 디노이징 단계를 점진적으로 건너뛰어 계산 비용을 최소화합니다. 비키프레임의 건너뛴 중간 상태가 키프레임 디노이징 단계에서 시간적 일관성을 깨뜨려 시각적 저하를 초래하므로, 우리는 잠재 궤적 투영 모듈을 도입하여 키프레임이 완전하고 시간적으로 일관된 시퀀스 표현과 상호 작용할 수 있게 합니다. 현재 DiT 기반 비디오 생성 모델에 대한 광범위한 실험 결과, 우리 방법이 기존 베이스라인보다 추론 속도가 빠르고 시각적 품질이 우수함을 보여줍니다.

Key Contributions

cs.CV

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CV 분야의 발전에 기여합니다.

Authors

Chensheng Dai
Shengjun Zhang
Yifan Li
Zhang Zhang
Zheng Zhu
Yueqi Duan

Paper Information

arXiv ID: 2606.06309v1
Categories: cs.CV
Published: June 4, 2026
PDF: Download PDF

[Paper] RhymeFlow: 학습 없이 비디오 생성을 가속하는 비동기 디노이징 흐름 스케줄링

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성