Lucataco 在 Replicate 上的 Higgs‑Audio‑V2 模型入门指南
发布: (2026年1月5日 GMT+8 10:49)
3 min read
原文: Dev.to
Source: Dev.to
概述
higgs-audio-v2 模型是由 Lucataco 开发的音频基础模型。它在超过 1000 万小时的多样化音频数据上进行训练,旨在实现富有表现力的文本转语音(TTS)生成,而无需大量微调。该模型利用对语言和声学的深刻理解,生成高质量的语音。
性能
-
EmergentTTS‑Eval 基准
- 情感类别:相较于 GPT‑4o‑mini‑TTS 胜率 75.7 %
- 问答类别:相较于 GPT‑4o‑mini‑TTS 胜率 55.7 %
-
与 xtts‑v2、whisperspeech‑small 等相似模型相比,higgs‑audio‑v2 在细腻情感表达和复杂语音场景的处理上表现更佳,且无需后期训练优化。
使用方法
模型接受纯文本输入,并可配合一组可选的配置参数,以影响生成音频的特性。
参数
| 参数 | 描述 | 取值范围 / 选项 | 默认值 |
|---|---|---|---|
text | 要转换为语音的输入文本。 | — | "The sun rises in the east and sets in the west" |
temperature | 控制生成的随机性;数值越低输出越确定。 | 0.1 – 1 | 0.3 |
top_p | 核心抽样参数,决定生成音频的多样性。 | 0.1 – 1 | 0.95 |
top_k | 将词汇表限制在前 k 个 token 进行抽样。 | 1 – 100 | 50 |
max_new_tokens | 要生成的音频 token 的最大数量。 | 256 – 2048 | 1024 |
scene_description | 音频环境的上下文描述(例如录音场景)。 | — | "Audio is recorded from a quiet room" |
system_message | 可选的自定义系统消息,用于额外控制。 | — | none |
生成音频
- 提供希望合成的
text。 - 调整任意可选参数以塑造输出(例如更改
temperature以获得更多或更少的变化)。 - 将请求提交到模型端点。
模型会返回一个 高质量 WAV 文件,内含合成的语音。
输出
- 音频文件:生成的语音以 WAV 格式保存,可直接播放或用于后续处理。