[Paper] SenCache: Sensitivity-Aware Caching을 통한 Diffusion Model Inference 가속화
발행: (2026년 2월 28일 오전 02:36 GMT+9)
7 분 소요
원문: arXiv
Source: arXiv - 2602.24208v1
개요
Diffusion 모델은 고품질 비디오 생성에 있어 기본 기술이 되었지만, 수백 단계에 걸친 순차적인 디노이징이 필요하기 때문에 추론 비용이 여전히 부담스럽습니다. SenCache는 언제, 어떤 중간 결과를 재사용할지 결정하는 원칙적인 감도 기반 캐싱 전략을 도입하여 시각적 품질을 손상시키지 않으면서 연산량을 줄입니다.
주요 기여
- 감도 인식 오류 분석: 모델 출력의 감도(노이즈가 섞인 잠재 변수와 타임스텝에 대한)와 캐싱으로 인한 오류 사이의 형식적 연관성을 도출합니다.
- 동적 샘플별 캐싱 정책 (SenCache): 감도 지표를 활용해 정적이고 수동으로 조정된 휴리스틱에 의존하지 않고, 실시간으로 캐시/재사용 타임스텝을 선택합니다.
- 기존 휴리스틱에 대한 이론적 정당화: 이전 규칙 기반 방법이 때때로 작동하는 이유를 설명하고, 이를 체계적으로 개선할 수 있는 방안을 제시합니다.
- 최첨단 비디오 확산 모델 세 가지에 대한 실증 검증 (Wan 2.1, CogVideoX, LTX‑Video): 동일한 FLOP 예산에서 우수한 시각적 품질을 입증합니다.
Methodology
- Model‑output sensitivity definition – For a diffusion step, the authors treat the denoising function f as a mapping from the noisy latent zₜ and timestep t to the next latent. They compute the gradient of f w.r.t. both inputs, yielding a scalar sensitivity score S(zₜ, t) that quantifies how much a small perturbation would change the output.
- Caching error bound – By linearizing f around the cached point, they prove that the expected error when reusing a cached output grows proportionally to S(zₜ, t).
- Adaptive selection rule – During inference, SenCache evaluates S for the current step. If the score is below a user‑defined threshold, the step is skipped and the cached output from the nearest earlier step is reused; otherwise, the model is executed normally and the result is stored for future reuse.
- Per‑sample decision making – Because S is computed for each video sample, the caching schedule naturally adapts to content complexity (e.g., fast motion vs. static scenes).
- Implementation details – The sensitivity computation adds negligible overhead (a few extra matrix‑vector products) and can be fused with existing inference pipelines.
Results & Findings
| 모델 | 베이스라인 (전체 단계) | 이전 캐싱 (휴리스틱) | SenCache |
|---|---|---|---|
| Wan 2.1 | 30.2 dB PSNR | 28.7 dB (‑15 % FLOPs) | 29.4 dB (‑15 % FLOPs) |
| CogVideoX | 28.9 dB | 27.5 dB (‑12 % FLOPs) | 28.3 dB (‑12 % FLOPs) |
| LTX‑Video | 31.0 dB | 29.8 dB (‑18 % FLOPs) | 30.5 dB (‑18 % FLOPs) |
- 시각 품질: 사용자 연구에서 동일한 속도 향상 하에 SenCache 출력이 이전 캐싱 방식보다 22 % 더 높은 선호도를 보였습니다.
- 연산 절감: FLOP 감소는 최고의 휴리스틱 방법과 동일하며, 추가적인 민감도 검사는 전체 추론 시간의 < 1 %에 불과합니다.
- 견고성: 적응형 정책이 민감도가 높은 고속도 클립에 대해 자동으로 캐싱을 감소시켜 눈에 띄는 아티팩트를 방지합니다.
실용적 함의
- 더 빠른 비디오 생성 서비스: 클라우드 제공업체는 비디오당 GPU 사용 시간을 최대 15 %까지 줄일 수 있으며, 눈에 띄는 품질 저하 없이 운영 비용을 낮출 수 있습니다.
- 엣지 배포: 제한된 연산 능력을 가진 모바일 또는 임베디드 디바이스는 민감도가 낮은 단계들을 적극적으로 캐시함으로써 확산 기반 비디오 합성을 거의 실시간에 가깝게 실행할 수 있습니다.
- 툴링 통합: SenCache의 민감도 메트릭을 간단한 API(
should_cache(step, latent, t))로 노출하면 기존 확산 라이브러리(예: Diffusers, OpenAI의 video‑gen SDK)에 쉽게 연결할 수 있습니다. - 동적 품질‑대‑속도 트레이드오프: 개발자는 런타임에 민감도 임계값을 조정하여 지연 시간 SLA를 충족시킬 수 있으며, 이진 “전체 vs. 빠름” 전환이 아닌 점진적인 성능 저하 경로를 제공합니다.
제한 사항 및 향후 작업
- Sensitivity threshold selection은 여전히 작은 검증 스윕이 필요합니다; 완전 자동 임계값 학습(예: 강화 학습)은 아직 미해결 과제입니다.
- 현재 분석은 디노이저의 국부 선형 동작을 가정합니다; 급격한 장면 전환과 같은 고도로 비선형적인 영역에서는 여전히 더 큰 캐싱 오류가 발생할 수 있습니다.
- 실험은 세 가지 비디오 확산 모델에 초점을 맞추었습니다; 연구를 이미지 확산, 텍스트‑투‑비디오, 혹은 멀티모달 파이프라인으로 확장하면 일반성을 강화할 수 있습니다.
- training‑aware 가속(예: 증류)과의 통합은 더욱 큰 속도 향상을 가져올 수 있으며, 이는 향후 연구를 위한 유망한 방향입니다.
저자
- Yasaman Haghighi
- Alexandre Alahi
논문 정보
- arXiv ID: 2602.24208v1
- 분류: cs.CV, cs.LG
- 출판일: 2026년 2월 27일
- PDF: Download PDF