InfiniteTalk:我为肖像赋予了声音。只用了一个音频文件和零云服务。
Source: Dev.to

上个月,一位客户要求我制作一个由真人主持的产品演示视频。
外包报价: $1,100。
我实际花费的时间: 三天和电费。
我尝试的每个“AI 头像”工具的问题
- 它们很贵。 你只能生成几分钟的内容,然后又得付费。一次性使用还行,但大量使用就糟糕透顶。
- 它们会记录一切。 你上传的每张肖像、键入的每段脚本都会保存在它们的服务器上。我是通过一次不太舒服的经历发现的——我正在制作的角色扮演情景被它们的内容审核标记。并非非法,只是“不符合可接受使用”。
- 输出显得死板。 嘴巴会动,但其他部位没有。没有头部微动、没有眨眼、没有自然的肩部动作。看起来像是会说话的照片,而不是活生生的人。
我需要本地化的解决方案。
在 GitHub 上的凌晨 1 AM
浏览 GitHub 趋势时,我发现了 InfiniteTalk(MeiGen‑AI 出品)。README 中的三行文字让我停下脚步:
- “无限时长的口语视频生成”
- “唇形同步 + 头部动作 + 身体姿态 + 面部表情”
- “在消费级硬件上本地运行”
该模型基于 Wan2.1——同一模型家族正在悄然主导开源视频生成领域。我已经克隆了仓库。
第一个结果让我大吃一惊
一个肖像,一个音频片段,三十秒的生成时间。
嘴唇动了——正如预期。让我没想到的是:头部轻微倾斜,眼睛眨动,肩膀出现那种在有人真正说话时会有的细微起伏。 这不是机械的晃动,也不是预设的动画循环——而是真实的微小动作,正是人在说话时身体的自然反应。
我用不同的音频再次生成。效果同样自然。
为什么它有效而其他方法不行
传统的口型同步工具——SadTalker、MuseTalk、以及大多数 GitHub 项目——都有一个根本性的做法:它们只处理嘴部。
取一段视频,分离出嘴部区域,用音频驱动的嘴部运动替换,其他部分保持不变。
问题显而易见:真实的人在说话时,任何部位都不是静止的。头会点动,眉毛会移动,肩膀会随呼吸起伏。只修正嘴部会产生一种难以言喻但立刻显现的“恐怖谷”效果。
InfiniteTalk 采用了不同的思路。它并不是对视频进行补丁式处理;它生成全新的视频。
- 输入: 人像 + 音频。
- 输出: 从零合成的视频,音频不仅驱动嘴唇,还驱动整个身体的运动模式。
基准测试
| 模型 | 唇部误差 |
|---|---|
| InfiniteTalk | 1.8 mm |
| MuseTalk | 2.7 mm |
| SadTalker | 3.2 mm |
InfiniteTalk 与 MuseTalk 之间的 0.9 mm 差距,就是“令人信服”和“几乎信服”之间的区别。
“无限长度” 实际含义
默认生成 81 帧——约 3 秒(25 fps)。但 3 秒并不是上限;它是一个单位。
InfiniteTalk 使用 稀疏帧上下文窗口:每个片段生成后,将最后的帧向前传递,作为下一个片段的参考材料。结果是无缝连续——相同的身份、相同的背景稳定性、相同的音频‑唇形对齐——即使是任意长的视频也能保持。
我测试了一个 3 分钟的片段。身份没有漂移,背景没有闪烁,唇形同步始终保持。
硬件要求
你不需要顶级 GPU。
- 480p: 最低 6 GB VRAM
- 720p: 推荐 16 GB 以上
我使用的是 RTX 3090。一个 3 秒的 480p 片段生成需要 30–60 秒——不是瞬间,但对于你得到的质量来说完全可接受。
需要的模型
Wan2.1_I2V_14B_FusionX-Q4_0.gguf # quantized main model, VRAM‑friendly
wan2.1_infiniteTalk_single_fp16.safetensors # InfiniteTalk patch
wav2vec2-chinese-base_fp16.safetensors # audio encoder
# Supporting VAE, CLIP, LoRA weights
所有模型均可在 Hugging Face 或地区镜像获取。
一键设置,无需代码
我们将 ComfyUI 工作流封装在 Gradio Web 界面中,以便更容易使用。
启动: 双击 01-run.bat。浏览器会自动打开 http://localhost:7860。
左侧面板输入
- 人像图像(任意格式)
- 音频文件(WAV 或 MP3)
- 文本提示(影响运动风格,而非内容)
右侧面板
生成的 MP4,随时可播放和下载。
高级设置可让您调整分辨率(256–1024 px)、帧数和采样步数。默认设置适用于大多数使用场景。
你可能在想的那部分
这完全在本地硬件上运行。没有云处理,没有使用日志,也没有内容审核系统监视你生成的内容。
你使用什么画像,提供什么音频,利用它创造什么——**你的硬件,你的决定。**其余的含义就留给你的想象吧。
结束
客户收到了他们的视频。他们问我用了哪家制作公司。我告诉他们是我在家里,用自己的机器生成的。
沉默了两秒。
“你也能做第二集吗?”
可以。