[Paper] 一起交谈：从音频合成同位3D对话

发布: 14小时前 (2026年3月10日 GMT+8 01:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08674v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保留原有的格式。）

概述

本文提出了首个系统，能够将面对面对话的单一混合音频录音转化为两个完全动画化的 3D 化身，这些化身不仅能够完美同步唇形，还能保持真实的空间关系——相对位置、头部方向和相互注视。通过此方式，它弥合了当今“说话头部”视频会议化身与真正沉浸式、共处的虚拟对话之间的差距。

数据收集 – 作者构建了一个自动化流水线，抓取公开可用的视频，检测对话场景，提取配对的人脸轨迹，并将其与混合音频对齐。这产生了一个庞大的同步 3D 人脸扫描（通过现有的 3D 人脸重建工具）和音频语料库。
Dual‑Stream Architecture – 两条平行的神经流各自输出一个参与者的 3D 面部动画（网格顶点、Blendshape 系数、眼睛注视向量）。
- Speaker Role Embedding 为每条流标记为 “Speaker A” 或 “Speaker B”，为网络提供轮流顺序的概念。
- Cross‑Attention Module 让每条流关注另一条流的隐藏状态，使模型能够推断任意时刻的发言者并协调手势（例如在对方说话时点头）。
Audio Disentanglement – 将混合音频传入共享编码器；Cross‑Attention 将信号拆分为特定说话者的韵律特征，以驱动唇形同步。
Spatial & Gaze Control – 一个轻量级文本解析器将诸如 “Speaker A faces left, Speaker B looks at Speaker A” 的简单指令转换为目标方向向量，并作为条件输入注入。
Loss Functions –
- Lip‑Sync Loss（对音素对齐的 Blendshapes 进行 L1 损失）
- Pose Consistency Loss（惩罚不真实的头部跳动）
- Eye‑Gaze Loss（鼓励相互的注视方向）
- Adversarial Loss（判别器评估整体真实感）。

指标	基线（Talking‑Head）	提出的 Dual‑Stream
Lip‑Sync Error (ms)	38	21
Gaze Reciprocity Score (0‑1)	0.42	0.78
User Study – Realism (5‑point Likert)	3.1	4.3
User Study – Interaction Coherence	2.9	4.0

总体而言，这项研究将对话化身生成从静态的“说话头部”推进到真正交互、空间感知的 3D 代理——为沉浸式通信平台开辟新途径。