[Paper] AlcheMinT: 细粒度时间控制用于多参考一致视频生成

发布: (2025年12月12日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.10943v1

Overview

AlcheMinT 是一个全新的框架,能够让你在扩散‑式视频生成器中精确指定每个主体出现或消失的时间。通过在提示词中加入显式时间戳,模型可以生成多主体视频,既保持每个角色外观的一致性,又遵循用户自定义的时间脚本——这为组合式视频合成、分镜绘制和可控动画打开了新途径。

Key Contributions

  • 时间戳条件生成 – 引入一种位置编码方案,将主体身份绑定到视频中的特定时间区间。
  • 轻量级集成 – 通过 token 级别的拼接实现时间控制,避免额外的 cross‑attention 层,仅增加极少量参数。
  • 主体描述 token – 添加专用文本 token,以强化主体视觉身份与其字幕之间的关联,降低歧义。
  • 全面基准测试 – 提出用于评估多主体身份保持、整体视频保真度以及对时间脚本遵循程度的指标。
  • 最先进的质量 – 在保持或超越现有主体驱动视频个性化方法的同时,首次实现细粒度的时间控制。

Methodology

  1. Base model – 基于已经支持通过学习主体嵌入进行主体驱动生成的预训练文本到视频扩散模型。
  2. Temporal positional encoding – 在模型现有的位置嵌入上扩展 时间戳编码,将每个主体 token 映射到起始帧和结束帧的区间。该编码在进入扩散 UNet 之前直接加到 token 嵌入上。
  3. Subject‑descriptive tokens – 对每个主体,在提示词中插入一个简短的文本 token(例如 <person_A>)。这些 token 与主体嵌入共同学习,确保模型知道哪个视觉外观对应哪个时间戳。
  4. Token‑wise concatenation – 将时间戳编码与主体 token 在 token 级别进行拼接,使扩散主干看到的是单一的增强 token 流。无需额外的注意力模块,保持计算开销最小。
  5. Training & fine‑tuning – 在一个包含已知出现区间的多主体短片数据集上进行微调,使用标准的扩散损失加上时间一致性正则项。

Results & Findings

  • Visual fidelity – 通过 FVD(Fréchet Video Distance)和基于 CLIP 的图像质量评分衡量,AlcheMinT 的输出与最佳主体个性化视频生成器持平。
  • Identity preservation – 在 5 主体测试视频中,平均身份相似度(使用人脸/物体编码器)相比缺乏时间控制的基线提升约 12 %。
  • Temporal adherence – 新引入的“时间戳准确率”指标显示,> 90 % 的帧遵守规定的出现区间,而之前的方法常常出现主体跨帧泄漏的情况。
  • Parameter efficiency – 增加的时间戳和描述 token 嵌入使模型体积增长 < 0.5 %,推理速度仍保持在原始扩散管线的 5 % 以内。

Practical Implications

  • Storyboarding & Pre‑visualization – 电影制作人可以脚本化角色进入场景的时间,并即时生成粗略的视频模型,大幅减少手工布局工作。
  • Dynamic Advertising – 品牌能够在用户生成的剪辑中让产品恰好在期望的时刻出现,实现个性化广告。
  • Game Asset Animation – 开发者可以生成短片段或 UI 动画,使角色出现与叙事节拍同步,无需手动逐帧动画。
  • Educational Content – 教师可以制作教程视频,使视觉辅助(如图表、物体)在精确的时间戳弹出或消失,提高内容清晰度。
  • Composable pipelines – 由于 AlcheMinT 以最小的开销接入现有扩散视频生成器,可直接加入当前的生产流水线(如 Runway、Stability AI),无需完整模型重建。

Limitations & Future Work

  • Short clip focus – 当前训练数据仅包含 ≤ 8 秒的短片;更长的叙事可能需要层次化的时间建模。
  • Subject count scaling – 虽然 3‑5 个主体表现良好,但处理数十个并发身份仍会导致身份保真度下降。
  • Complex motion – 快速、非线性运动(如快速切换、相机抖动)有时会干扰时间戳编码器,导致轻微的时间漂移。
  • Future directions – 作者建议将位置编码扩展到层次化时间尺度(场景 → 镜头),加入音频线索实现多模态控制,并探索在无需微调的情况下对新主体进行零样本适配。

Authors

  • Sharath Girish
  • Viacheslav Ivanov
  • Tsai‑Shien Chen
  • Hao Chen
  • Aliaksandr Siarohin
  • Sergey Tulyakov

Paper Information

  • arXiv ID: 2512.10943v1
  • Categories: cs.CV, cs.AI
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »