[Paper] MobileI2V:在移动设备上实现快速且高分辨率的图像到视频转换
Source: arXiv - 2511.21475v1
Overview
本文介绍了 MobileI2V,一种轻量级的基于扩散的模型,能够在智能手机上 实时 将单张图像转换为高分辨率(720p)视频。通过重新思考注意力机制、压缩扩散采样调度并采用面向移动端的优化,作者实现了每帧生成时间低于 100 ms——比以往方法快数十倍,同时保持竞争性的视觉质量。
Key Contributions
- Hybrid Linear‑Softmax Attention Denoiser – 一种新颖架构,将高效的线性注意力与偶尔的 Softmax 注意力相结合,在移动硬件上实现速度与保真度的最佳平衡。
- Two‑Step Time‑Step Distillation – 一种训练技巧,将常规的 20 多步扩散压缩至仅 2 步推理,实现约 10 倍的加速,质量损失可忽略不计。
- Mobile‑First Attention Optimizations – 低层内核微调和内存友好调度,使 ARM CPU/NPU 上的注意力层吞吐量提升两倍。
- First Real‑Time 720p I2V on‑device – 在普通智能手机上实现端到端的 30 fps 视频剪辑生成(每帧 <100 ms),标志着设备端创意 AI 的里程碑。
- Open‑source Release – 完整代码和预训练权重已公开,便于立即实验和集成。
Methodology
-
Model Backbone – MobileI2V 基于一个 270 M 参数的 UNet‑style 扩散去噪器。作者在大多数层中插入 线性注意力块,仅在对质量影响最大的部位(如早期高层特征图)保留 Softmax 注意力。这种 “线性‑混合” 设计将注意力的二次成本降为线性,同时保留关键的全局上下文。
-
Time‑Step Distillation – 传统扩散需要许多小的去噪步骤。作者先用完整调度训练一个 教师模型,再将其知识蒸馏到 学生模型,使其能够直接从噪声潜在跳到近乎干净的状态,仅用两步完成。蒸馏损失将学生的中间输出与教师的多步轨迹对齐,有效压缩采样过程。
-
Mobile‑Specific Optimizations –
- Operator Fusion:将卷积 + 激活合并为单个内核,减少内存流量。
- Cache‑Friendly Layout:重新排列张量以匹配 ARM NEON 向量通道,最小化缓存未命中。
- Dynamic Precision:在安全的地方使用混合精度(FP16),仅在数值敏感层回退到 FP32。
-
Training Pipeline – 模型在大规模视频数据集(如 UCF‑101、Kinetics)上使用标准扩散目标进行训练,并加入惩罚时间不一致性的辅助损失,确保生成帧之间运动平滑。
Results & Findings
| 指标 | 先前移动端 I2V(基线) | MobileI2V(2 步) |
|---|---|---|
| 分辨率 | 480p | 720p |
| 平均每帧延迟(CPU) | ~800 ms | <100 ms |
| FVD(Frechet Video Distance) ↓ | 210 | 185(≈ 12% 改进) |
| PSNR(视频质量) ↑ | 24.1 dB | 24.8 dB |
| 模型大小 | 350 M 参数 | 270 M 参数 |
- 速度:两步蒸馏带来 10× 加速;注意力优化再提升 2×,实现了在普通设备上的实时播放。
- 质量:尽管加速幅度大,视觉质量仍与更大的桌面级扩散模型持平,客观指标(FVD、PSNR)和用户研究均证实。
- 资源占用:模型在 <1 GB RAM 内即可运行,适合后台应用或 AR 体验。
Practical Implications
- On‑Device Creative Apps – 开发者可以将视频生成特性(如动画头像、动态故事板、AR 滤镜)直接嵌入移动应用,无需云端推理,保护隐私并降低延迟。
- Real‑Time Video Editing – Instagram Reels、TikTok 等平台可提供 “将照片转为短视频” 的即时滤镜,开启全新内容创作流程。
- Edge AI for Gaming – 可在游戏中实时合成程序化过场或 NPC 动画,缩小游戏包体并实现个性化体验。
- Bandwidth‑Sensitive Scenarios – 在低网络环境(如偏远现场)下,设备端生成免去了上传高分辨率图像至服务器的需求。
- Research & Prototyping – 开源代码为开发者提供了坚实的基线,可进一步探索其他模态(如文本到视频),或将混合注意力方案迁移到不同的移动 AI 任务。
Limitations & Future Work
- Hardware Dependency – 报告的速度基于高端 ARM CPU/NPU;旧设备仍可能难以达到 <100 ms。
- Temporal Consistency Edge Cases – 快速运动或复杂遮挡时偶尔出现抖动;进一步的时间正则化可能有所帮助。
- Generalization to Diverse Domains – 训练数据主要是自然场景;对风格化或医学影像的表现尚未验证。
- Scalability Beyond 720p – 虽然 720p 已是重要里程碑,若要扩展至 1080p 或 4K 仍需额外的模型压缩或硬件加速。
作者建议探索 adaptive step‑distillation(根据场景复杂度动态调整扩散步数)以及 hardware‑aware neural architecture search,以进一步突破性能上限。
MobileI2V 证明,高质量、实时的图像到视频合成已不再是云端专属的奢侈品。凭借其混合注意力设计和激进的蒸馏策略,开发者现在拥有了将动态视频生成直接带入用户口袋的实用工具箱。
Authors
- Shuai Zhang
- Bao Tang
- Siyuan Yu
- Yueting Zhu
- Jingfeng Yao
- Ya Zou
- Shanglin Yuan
- Li Yu
- Wenyu Liu
- Xinggang Wang
Paper Information
- arXiv ID: 2511.21475v1
- Categories: cs.CV
- Published: November 26, 2025
- PDF: Download PDF