[Paper] EditYourself:Audio-Driven 生成与操控 Talking Head 视频,使用 Diffusion Transformers

发布: (2026年1月30日 GMT+8 02:49)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.22127v1

Overview

EditYourself 解决了视频创作者长期存在的痛点:如何在不重新拍摄或牺牲画质的情况下,修改已有的 talking‑head 片段中的口语内容。通过将 diffusion‑based video generationaudio conditioning 以及 transformer backbone 相结合,作者们提供了一个系统,能够在保持原始动作、身份和唇形同步的前提下,添加、删除或重新计时语音。

关键贡献

  • 音频驱动的视频到视频编辑:将通用视频扩散模型(DiT)扩展为接受原始音频作为条件信号,实现对现有素材的转录级别编辑。
  • 区域感知时空修补:引入编辑掩码,将扩散过程聚焦于嘴部和面部区域,保留未修改的区域并确保时间连贯性。
  • 编辑导向的训练方案:通过合成的“编辑”情景(语音插入、删除和重新计时)扩充扩散训练集,使模型能够应对真实的后期制作工作流。
  • 长时段身份一致性:展示了在数秒长度的片段中保持稳定的说话人身份和动作,相较于以往的短片生成器有显著提升。
  • 开源实现与 API 原型:提供即用型 Python 包和轻量级 REST 接口,降低了在现有流水线中集成的门槛。

方法论

  1. 基础模型 – DiT(Diffusion Transformer)

    • 基于 Transformer 的扩散模型,在潜在空间中预测视频帧,使用大规模说话头数据集进行训练。
  2. 音频条件化

    • 原始波形通过预训练的音频编码器(例如 wav2vec‑2.0)生成时间对齐的嵌入。
    • 该嵌入在每个扩散时间步通过交叉注意力注入,引导视觉合成朝向期望的音素。
  3. 编辑掩码生成

    • 用户提供转录编辑(例如“将‘hello’替换为‘welcome’”)。
    • 自动对齐步骤将新转录映射到时间戳,生成覆盖受影响帧口部区域的二进制掩码。
  4. 时空修补(Spatiotemporal Inpainting)

    • 扩散过程仅在掩码区域运行,其余视频作为条件信号保持不变。
    • 时间注意力窗口确保生成的帧与周围上下文平滑融合。
  5. 训练增强

    • 在训练时动态创建合成编辑(随机插入、删除或拉伸音频),模型被训练以重建相应视频,使其学会处理真实世界的编辑操作。

Results & Findings

指标基线(DiT 无音频)EditYourself
唇形同步误差 (LSE‑C) ↓0.420.18
身份保留 (ID‑Score ↑)0.710.89
时间一致性 (FVD ↓)11268
用户研究(平均意见分数,1‑5)3.24.3
  • 唇形同步 通过音频条件的交叉注意力提升约 57 %。
  • 身份漂移 在 5 秒片段中降至几乎不可察觉的水平,使得长时间编辑不再出现“怪异”感。
  • 定性 示例展示了新句子的无缝插入、填充词的删除以及暂停的平滑重定时,同时保持背景光照和头部姿态不变。

实际影响

  • 后期制作流程:编辑者现在可以修正脚本错误、本地化内容,或在无需昂贵重新拍摄的情况下创建多语言版本。
  • 直播增强:实时音频流可用于即时纠正发音错误或审查脏话。
  • 在线学习与企业培训:在保持原讲者形象的同时,更新已录制讲座中过时的旁白。
  • 辅助功能工具:通过更换不同语言的音轨,生成手语覆盖或可读唇形的视频。
  • SDK 集成:提供的 Python 包可以直接嵌入现有视频处理堆栈(例如基于 FFmpeg 的工作流),只需一次 API 调用:
edit_video(input.mp4, new_transcript, audio.wav)

Source:

限制与未来工作

  • 领域特定性:模型主要在正面、光照良好的说话头数据集上进行训练;在极端角度、严重遮挡或低分辨率视频上性能会下降。
  • 音频质量依赖:嘈杂或强混响的音频会降低唇形同步的准确性;未来工作将探索鲁棒的音频编码器和去噪前端。
  • 编辑时长:虽然 5 秒的编辑相对稳定,但超过 10 秒的更长插入仍会出现轻微的身份漂移,这表明需要层次化的时间建模。
  • 实时约束:当前推理在单个 A100 GPU 上约为 2 fps;通过优化扩散调度或利用蒸馏技术有望将系统逼近实时编辑速度。

EditYourself 标志着生成式视频模型向日常视频编辑实用工具迈出的具体一步,为更灵活的 AI 增强后期制作工作流打开了大门。

作者

  • John Flynn
  • Wolfgang Paier
  • Dimitar Dinev
  • Sam Nhut Nguyen
  • Hayk Poghosyan
  • Manuel Toribio
  • Sandipan Banerjee
  • Guy Gafni

论文信息

  • arXiv ID: 2601.22127v1
  • 分类: cs.CV, cs.GR, cs.LG, cs.MM
  • 出版时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »