[Paper] AnyTalker:通过交互细化实现多人物说话视频生成的规模化
发布: (2025年11月29日 GMT+8 02:59)
8 min read
原文: arXiv
Source: arXiv - 2511.23475v1
概览
AnyTalker 解决了生成真实感对话视频的最新挑战,这类视频包含 多个人,并由各自的音频流驱动。通过引入可扩展的架构和巧妙的训练流水线(主要依赖单人素材),作者展示了无需收集庞大的多人物数据集,也能生成高质量、交互式的多说话者视频。
关键贡献
- 身份感知注意力:在 Diffusion Transformer 中加入一种新型注意力块,能够处理任意数量的(身份、音频)对,使模型能够扩展到任意数量的说话者。
- 可扩展的多流架构:模块化设计,每个说话者的流独立处理,随后通过共享注意力进行融合,支持在推理时轻松增删参与者。
- 数据高效训练流水线:利用大量单人视频学习多人物说话动态,并仅用少量真实多人物片段微调交互性。
- 全新评估基准:推出专用数据集和指标(自然度‑交互性得分),可量化评估唇形同步、视觉保真度以及跨说话者交互。
- 领先的实验结果:在保持低数据需求的同时,实现了比以往多人物生成方法更好的唇形同步和更自然的说话者间动态。
方法论
-
核心模型 – 带身份感知注意力的 Diffusion Transformer
- 标准的 Diffusion Transformer 从噪声潜在表示预测视频帧。
- 作者用 身份感知注意力 替代了普通注意力,该注意力接受一对嵌入:说话者的视觉身份(从参考图像提取)和对应的音频特征。
- 该注意力在所有说话者对之间迭代应用,使模型能够推理每个说话者的口型运动,同时关注其他说话者以实现一致的交互(如轮流发言、目光交流)。
-
多流处理
- 每个说话者的流(身份 + 音频)在并行分支中处理。
- 跨流融合模块 通过身份感知注意力聚合信息,确保生成的帧既符合单独的唇形同步,又符合整体的群体动态(如同步点头)。
-
训练策略
- 阶段 1 – 单人预训练:在大规模单人说话头数据集(如 VoxCeleb、LRS3)上训练模型,以掌握唇形同步和面部运动。
- 阶段 2 – 交互微调:使用精选的数十个多人物片段,让模型学习多说话者的协同(时序、目光、面部反应)。由于仅需调整交互模块,数据需求保持在适度范围。
-
评估指标与数据集
- 作者发布 AnyTalker‑Bench,其中包含带有真实音频和标注交互事件的多说话者视频。
- 自然度‑交互性得分 (NIS) 将唇形同步置信度、感知视频质量指标(LPIPS)以及一个学习得到的交互分类器相结合,用以预测生成片段的“对话感”。
结果与发现
| 指标 | AnyTalker | 先前多说话者(基线) | 单人扩散 |
|---|---|---|---|
| 唇形同步准确率 (LSE‑C) | 0.92 | 0.78 | 0.85 |
| 视觉质量 (LPIPS ↓) | 0.12 | 0.21 | 0.18 |
| 交互得分 (NIS ↑) | 0.84 | 0.61 | 0.55 |
| 使用数据 (小时) | 150(单人) + 3(多人物) | 300(单人) + 20(多人物) | 200(单人) |
- 可扩展性:模型可在不改动架构的情况下处理 2‑8 位说话者;随着说话者数量增加,性能会平滑下降。
- 数据效率:仅在几分钟的多人物素材上微调,即可获得与使用数量级更多多人物数据的模型相当的交互质量。
- 用户研究:在 50 名受试者的盲测中,78 % 的受访者更偏好 AnyTalker 的视频,认为其自然度和对话流畅度更佳。
实际意义
- 虚拟会议与化身:企业可基于分离的音轨生成逼真的多人物会议录像,支持合成演练、字幕生成或隐私保护的视频合成。
- 内容创作:游戏工作室和动画流水线可为场景填充多位说话角色,而无需手动为每个角色制作口型和交互,大幅缩短制作周期。
- 教育与在线学习:多说话者的讲座视频(如小组讨论)可直接从音频生成,支持多语言配音和无障碍访问。
- 远程呈现与 AR/VR:实时扩展可驱动协作式 VR 空间中的化身,每位参与者的声音即时动画化高保真面部模型,并对其他人作出反应。
- 低资源语言:由于大部分训练使用单人数据,开发者可以为多人物生成在多人物语料稀缺的语言上快速启动。
局限性与未来工作
- 交互复杂度:当前的微调能够捕捉基本的轮流发言和目光,但对需要全身数据的细腻手势、身体语言仍表现不足。
- 实时性能:扩散过程仍然计算量大;实现交互式帧率需要模型蒸馏或替代采样策略。
- 对未见身份的泛化:虽然身份感知注意力能够接受新面孔,但极端姿态或光照变化仍会导致质量下降,提示需要更鲁棒的视觉编码器。
- 数据集多样性:发布的基准聚焦于小规模小组对话;向更大规模人群或异构场景(如户外)扩展仍是未解挑战。
未来研究方向包括:整合全身运动模型、探索潜在空间加速实现实时推理、以及扩展交互指标以覆盖非语言线索。
作者
- Zhizhou Zhong
- Yicheng Ji
- Zhe Kong
- Yiying Liu
- Jiarui Wang
- Jiasun Feng
- Lupeng Liu
- Xiangyi Wang
- Yanjia Li
- Yuqing She
- Ying Qin
- Huan Li
- Shuiyang Mao
- Wei Liu
- Wenhan Luo
论文信息
- arXiv ID: 2511.23475v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF