[Paper] EditYourself：Audio-Driven 生成与操控 Talking Head 视频，使用 Diffusion Transformers

发布: 1周前 (2026年1月30日 GMT+8 02:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.22127v1

Overview

EditYourself 解决了视频创作者长期存在的痛点：如何在不重新拍摄或牺牲画质的情况下，修改已有的 talking‑head 片段中的口语内容。通过将 diffusion‑based video generation 与 audio conditioning 以及 transformer backbone 相结合，作者们提供了一个系统，能够在保持原始动作、身份和唇形同步的前提下，添加、删除或重新计时语音。

关键贡献

音频驱动的视频到视频编辑：将通用视频扩散模型（DiT）扩展为接受原始音频作为条件信号，实现对现有素材的转录级别编辑。
区域感知时空修补：引入编辑掩码，将扩散过程聚焦于嘴部和面部区域，保留未修改的区域并确保时间连贯性。
编辑导向的训练方案：通过合成的“编辑”情景（语音插入、删除和重新计时）扩充扩散训练集，使模型能够应对真实的后期制作工作流。
长时段身份一致性：展示了在数秒长度的片段中保持稳定的说话人身份和动作，相较于以往的短片生成器有显著提升。
开源实现与 API 原型：提供即用型 Python 包和轻量级 REST 接口，降低了在现有流水线中集成的门槛。

方法论

基础模型 – DiT（Diffusion Transformer）
- 基于 Transformer 的扩散模型，在潜在空间中预测视频帧，使用大规模说话头数据集进行训练。
音频条件化
- 原始波形通过预训练的音频编码器（例如 wav2vec‑2.0）生成时间对齐的嵌入。
- 该嵌入在每个扩散时间步通过交叉注意力注入，引导视觉合成朝向期望的音素。
编辑掩码生成
- 用户提供转录编辑（例如“将‘hello’替换为‘welcome’”）。
- 自动对齐步骤将新转录映射到时间戳，生成覆盖受影响帧口部区域的二进制掩码。
时空修补（Spatiotemporal Inpainting）
- 扩散过程仅在掩码区域运行，其余视频作为条件信号保持不变。
- 时间注意力窗口确保生成的帧与周围上下文平滑融合。
训练增强
- 在训练时动态创建合成编辑（随机插入、删除或拉伸音频），模型被训练以重建相应视频，使其学会处理真实世界的编辑操作。

Results & Findings

指标	基线（DiT 无音频）	EditYourself
唇形同步误差 (LSE‑C) ↓	0.42	0.18
身份保留 (ID‑Score ↑)	0.71	0.89
时间一致性 (FVD ↓)	112	68
用户研究（平均意见分数，1‑5）	3.2	4.3

唇形同步 通过音频条件的交叉注意力提升约 57 %。
身份漂移 在 5 秒片段中降至几乎不可察觉的水平，使得长时间编辑不再出现“怪异”感。
定性示例展示了新句子的无缝插入、填充词的删除以及暂停的平滑重定时，同时保持背景光照和头部姿态不变。

实际影响

后期制作流程：编辑者现在可以修正脚本错误、本地化内容，或在无需昂贵重新拍摄的情况下创建多语言版本。
直播增强：实时音频流可用于即时纠正发音错误或审查脏话。
在线学习与企业培训：在保持原讲者形象的同时，更新已录制讲座中过时的旁白。
辅助功能工具：通过更换不同语言的音轨，生成手语覆盖或可读唇形的视频。
SDK 集成：提供的 Python 包可以直接嵌入现有视频处理堆栈（例如基于 FFmpeg 的工作流），只需一次 API 调用：

edit_video(input.mp4, new_transcript, audio.wav)

Source: …

限制与未来工作

领域特定性：模型主要在正面、光照良好的说话头数据集上进行训练；在极端角度、严重遮挡或低分辨率视频上性能会下降。
音频质量依赖：嘈杂或强混响的音频会降低唇形同步的准确性；未来工作将探索鲁棒的音频编码器和去噪前端。
编辑时长：虽然 5 秒的编辑相对稳定，但超过 10 秒的更长插入仍会出现轻微的身份漂移，这表明需要层次化的时间建模。
实时约束：当前推理在单个 A100 GPU 上约为 2 fps；通过优化扩散调度或利用蒸馏技术有望将系统逼近实时编辑速度。

EditYourself 标志着生成式视频模型向日常视频编辑实用工具迈出的具体一步，为更灵活的 AI 增强后期制作工作流打开了大门。

作者

John Flynn
Wolfgang Paier
Dimitar Dinev
Sam Nhut Nguyen
Hayk Poghosyan
Manuel Toribio
Sandipan Banerjee
Guy Gafni

论文信息

arXiv ID: 2601.22127v1
分类: cs.CV, cs.GR, cs.LG, cs.MM
出版时间: 2026年1月29日
PDF: 下载 PDF

[Paper] EditYourself：Audio-Driven 生成与操控 Talking Head 视频，使用 Diffusion Transformers

Overview

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[论文] 无训练的测试时适应与 Brownian Distance Covariance 在视觉语言模型中的应用

[Paper] ShotFinder：想象驱动的开放域视频片段检索 via Web Search