Lucataco 在 Replicate 上的 Higgs‑Audio‑V2 模型入门指南

发布: (2026年1月5日 GMT+8 10:49)
3 min read
原文: Dev.to

Source: Dev.to

概述

higgs-audio-v2 模型是由 Lucataco 开发的音频基础模型。它在超过 1000 万小时的多样化音频数据上进行训练,旨在实现富有表现力的文本转语音(TTS)生成,而无需大量微调。该模型利用对语言和声学的深刻理解,生成高质量的语音。

性能

  • EmergentTTS‑Eval 基准

    • 情感类别:相较于 GPT‑4o‑mini‑TTS 胜率 75.7 %
    • 问答类别:相较于 GPT‑4o‑mini‑TTS 胜率 55.7 %
  • xtts‑v2whisperspeech‑small 等相似模型相比,higgs‑audio‑v2 在细腻情感表达和复杂语音场景的处理上表现更佳,且无需后期训练优化。

使用方法

模型接受纯文本输入,并可配合一组可选的配置参数,以影响生成音频的特性。

参数

参数描述取值范围 / 选项默认值
text要转换为语音的输入文本。"The sun rises in the east and sets in the west"
temperature控制生成的随机性;数值越低输出越确定。0.1 – 10.3
top_p核心抽样参数,决定生成音频的多样性。0.1 – 10.95
top_k将词汇表限制在前 k 个 token 进行抽样。1 – 10050
max_new_tokens要生成的音频 token 的最大数量。256 – 20481024
scene_description音频环境的上下文描述(例如录音场景)。"Audio is recorded from a quiet room"
system_message可选的自定义系统消息,用于额外控制。none

生成音频

  1. 提供希望合成的 text
  2. 调整任意可选参数以塑造输出(例如更改 temperature 以获得更多或更少的变化)。
  3. 将请求提交到模型端点。

模型会返回一个 高质量 WAV 文件,内含合成的语音。

输出

  • 音频文件:生成的语音以 WAV 格式保存,可直接播放或用于后续处理。
Back to Blog

相关文章

阅读更多 »