[Paper] AlcheMinT: 细粒度时间控制用于多参考一致视频生成

发布: 1个月前 (2025年12月12日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.10943v1

Overview

AlcheMinT 是一个全新的框架，能够让你在扩散‑式视频生成器中精确指定每个主体出现或消失的时间。通过在提示词中加入显式时间戳，模型可以生成多主体视频，既保持每个角色外观的一致性，又遵循用户自定义的时间脚本——这为组合式视频合成、分镜绘制和可控动画打开了新途径。

Base model – 基于已经支持通过学习主体嵌入进行主体驱动生成的预训练文本到视频扩散模型。
Temporal positional encoding – 在模型现有的位置嵌入上扩展 时间戳编码，将每个主体 token 映射到起始帧和结束帧的区间。该编码在进入扩散 UNet 之前直接加到 token 嵌入上。
Subject‑descriptive tokens – 对每个主体，在提示词中插入一个简短的文本 token（例如 <person_A>）。这些 token 与主体嵌入共同学习，确保模型知道哪个视觉外观对应哪个时间戳。
Token‑wise concatenation – 将时间戳编码与主体 token 在 token 级别进行拼接，使扩散主干看到的是单一的增强 token 流。无需额外的注意力模块，保持计算开销最小。
Training & fine‑tuning – 在一个包含已知出现区间的多主体短片数据集上进行微调，使用标准的扩散损失加上时间一致性正则项。

Visual fidelity – 通过 FVD（Fréchet Video Distance）和基于 CLIP 的图像质量评分衡量，AlcheMinT 的输出与最佳主体个性化视频生成器持平。
Identity preservation – 在 5 主体测试视频中，平均身份相似度（使用人脸/物体编码器）相比缺乏时间控制的基线提升约 12 %。
Temporal adherence – 新引入的“时间戳准确率”指标显示，> 90 % 的帧遵守规定的出现区间，而之前的方法常常出现主体跨帧泄漏的情况。
Parameter efficiency – 增加的时间戳和描述 token 嵌入使模型体积增长 < 0.5 %，推理速度仍保持在原始扩散管线的 5 % 以内。

Storyboarding & Pre‑visualization – 电影制作人可以脚本化角色进入场景的时间，并即时生成粗略的视频模型，大幅减少手工布局工作。
Dynamic Advertising – 品牌能够在用户生成的剪辑中让产品恰好在期望的时刻出现，实现个性化广告。
Game Asset Animation – 开发者可以生成短片段或 UI 动画，使角色出现与叙事节拍同步，无需手动逐帧动画。
Educational Content – 教师可以制作教程视频，使视觉辅助（如图表、物体）在精确的时间戳弹出或消失，提高内容清晰度。
Composable pipelines – 由于 AlcheMinT 以最小的开销接入现有扩散视频生成器，可直接加入当前的生产流水线（如 Runway、Stability AI），无需完整模型重建。

Short clip focus – 当前训练数据仅包含 ≤ 8 秒的短片；更长的叙事可能需要层次化的时间建模。
Subject count scaling – 虽然 3‑5 个主体表现良好，但处理数十个并发身份仍会导致身份保真度下降。
Complex motion – 快速、非线性运动（如快速切换、相机抖动）有时会干扰时间戳编码器，导致轻微的时间漂移。
Future directions – 作者建议将位置编码扩展到层次化时间尺度（场景 → 镜头），加入音频线索实现多模态控制，并探索在无需微调的情况下对新主体进行零样本适配。