初学者指南:Lucetaco 在 Replicate 上的 Singing_voice_conversion 模型

发布: (2026年1月5日 GMT+8 11:31)
3 min read
原文: Dev.to

Source: Dev.to

A beginner's guide to the Singing_voice_conversion model by Lucataco on Replicate 的封面图片

这是一篇关于 AI 模型 Singing_voice_conversion 的简明指南,模型由 Lucataco 维护。如果你喜欢这类分析,欢迎加入 AImodels.fyi 或在 Twitter 上关注我们。

模型概述

singing_voice_conversion 模型可以将任意歌手的声音转换为另一位目标歌手的音色,同时保持原始的旋律和歌词。该模型基于 Amphion 框架,使用 DiffWaveNetSVC 技术,并采用多样的语义特征融合来从源音频中提取与说话人无关的表征。与更简单的音频转换工具不同,这一实现结合了多个预训练模型,以捕获旋律、歌词和声学特性的互补信息。

模型支持 15 位不同的目标歌手,包括西方流行艺术家如 Taylor Swift、Adele、Beyoncé、Bruno Mars、John Mayer、Michael Jackson,以及多位华语歌手(张学友、李健、汪峰、王菲、石倚洁、蔡琴、那英、陈奕迅、陶喆)。该模型由 Lucataco 创建,相较于基础的文本转语音系统(如 whisperspeech‑small),能够更精细地保留歌唱的音乐性和情感细节,而不仅仅是转换语音模式。

模型输入与输出

输入

  • source_audio – 包含待转换原始歌声的音频文件。
  • target_singer – 从上述 15 位歌手中选择目标歌手。
  • pitch_shift_control – 在 “Auto Shift”(自动音高调整)和 “Key Shift”(手动控制)之间选择。
  • key_shift_mode – 使用 Key Shift 模式时的手动音高调节范围,范围为 –6 到 +6 半音。
  • diffusion_inference_steps – 质量控制参数,取值 0 到 1000 步;数值越高质量越好,但处理时间也更长。

输出

  • Audio file – 转换后、符合目标歌手风格的歌声音频,保持原歌曲结构不变。

能力

该模型在保持音高、节奏和歌词内容等音乐要素的同时,能够将声线音色调整为所选目标歌手的特征。

点击此处阅读 Singing_voice_conversion 的完整指南

Back to Blog

相关文章

阅读更多 »