我终于尝试了 AI Vocal Remover:关于隔离轨道的收获
Source: Dev.to

我仍然记得在 2000 年代中期第一次尝试从歌曲中去除人声的情景。当时我还是个雄心勃勃的少年,手里只有一个破解的音频软件和在论坛上找到的教程。那种技术叫做相位抵消。你需要把左声道反相,然后与右声道叠加,并祈祷主唱正好居中混音。
结果呢?一段幽灵般、空洞的伴奏,军鼓消失了,混响听起来像在水下。技术上算是“去除人声”,但实际上根本不可用。
快进到今天,整个格局已经彻底改变。我最近花了一个周末深入研究当前的AI 人声去除技术,看看它是否真的配得上 hype。作为一个热爱混音和分析歌曲结构的人,我想知道:它是否终于足够好,能够用于真正的创作工作?
内部原理:它到底是怎么工作的
要理解为什么现代工具比我过去的相位抵消技巧更好,你必须看看背后的技术。我们不再只是简单地减去频率,而是使用在数千小时音频上训练的源分离模型。
这个概念常被比作“鸡尾酒会效应”——大脑在嘈杂环境中聚焦单一声音的能力。早期的 AI 试图通过观察频谱图(音频频率的可视化)来复制这种能力。
2019 年,Deezer 发布了 Spleeter,一个开源库,可以说让这项技术大众化。根据他们的发布论文,他们训练了 U‑Net 神经网络,以高效估计每个源(人声、鼓、贝斯)的“软掩码”。它并不完美,但速度快且易于获取。
更近些时候,Meta(Facebook)的研究人员推出了 Demucs。与仅使用频谱图的前代模型不同,Demucs 采用混合架构,直接在原始波形上工作。正如 Facebook AI Research 团队所描述的,这让模型能够“重新合成可能被响亮的撞镲掩盖的柔和钢琴音”,即在切除而不是仅仅删除的基础上重建音频。
我的“啊哈”时刻
我决定在一首结构复杂的曲目上测试几种本地安装和基于网页的包装模型:一首重低音、铜管和人声旋律在吉他频段之间来回穿梭的放克歌曲。
我使用基于 Demucs 架构的人声去除器处理了这首曲目,过程大约用了 40 秒。
当我单独试听 Vocals(人声)轨道时,真的被震惊到了。歌手的气息保持完整,混响尾部也没有被突兀地截断。真正的魔法在 Instrumental(伴奏)轨道上。通常,去除人声会留下“伪影”——奇怪的、带有水声的数字失真,因为计算机必须猜测人声背后的内容。
在高频监听器上仍能看到一些轻微的伪影,但对于普通混音来说,它已经比我手动十小时均衡调节能达到的效果更干净。
这正是更广阔的 MusicAI 领域开始发光的地方:从实验代码转向可直接在 DAW 工作流中使用的创意插件。
创作者的实用案例
那么,除了为周五晚上的卡拉 OK 派对制作伴奏外,这有什么意义?
- 和声分析 – 我使用分离出的人声轨道来研究伴随和声。去掉鼓和贝斯后,你可以清晰听到和弦排列的细节。这是一个极佳的听力训练工具。
- 采样制作节拍 – 对制作人来说,获取没有踢鼓泄漏的干净贝斯线是圣杯。我从一首 70 年代灵魂曲中分离出 4 小节的贝斯循环,听起来已经可以直接进入工作室。
- 混音 – 干净的 acapella 是制作 bootleg remix 的 90% 成功因素。AI 分离的质量足够好,我可以在不放大隐藏背景噪音的前提下,对人声添加压缩和延迟。
人类与 AI 的平衡
不过,我必须实事求是——这并非魔法。
虽然 AI 表现惊人,但在“密集”混音上仍有困难。高度压缩的现代流行或金属曲目更难被模型解开。我还注意到高帽经常渗入人声轨,因为它们共享相似的高频(齿音)。
还有一个不可回避的伦理与法律问题。仅仅因为你能分离出人声并不意味着你拥有它的版权。作为创作者,我们必须尊重版权。我将这些工具视为仅用于教育、个人练习或获得授权的 remix。
结论
我的周末实验证明,我们已经远远超越了相位抵消的时代。AI 人声去除已经从噱头转变为音乐人和开发者的合法工具。它帮助我们拆解喜爱的音乐,了解其制作过程。
如果你还没有尝试过这些工具,我强烈建议下载 Spleeter 或 Demucs 的 GUI 包装,跑一遍你最爱的歌曲。即使你不做音乐,单纯听到自己最爱的歌手被完整地从乐队中分离出来,也是一种令人心动的美好体验。
这再次提醒我们:AI 在正确使用的前提下,并不会取代艺术家——它为我们提供了一把新的透镜,让我们更好地欣赏他们的作品。