루카타코(Lucataco)의 Higgs-Audio-V2 모델 입문 가이드
발행: (2026년 1월 5일 오전 11:49 GMT+9)
3 min read
원문: Dev.to
Source: Dev.to
개요
higgs-audio-v2 모델은 Lucataco가 개발한 오디오 기반 모델입니다. 1천만 시간 이상의 다양한 오디오 데이터를 학습했으며, 광범위한 파인튜닝 없이도 표현력이 풍부한 텍스트‑투‑스피치(TTS) 생성을 목표로 설계되었습니다. 이 모델은 언어와 음향에 대한 깊은 이해를 활용해 고품질 음성을 생성합니다.
성능
-
EmergentTTS‑Eval 벤치마크
- 감정 카테고리: 75.7 % 승률 (GPT‑4o‑mini‑TTS 대비)
- 질문 카테고리: 55.7 % 승률 (GPT‑4o‑mini‑TTS 대비)
-
xtts‑v2 및 whisperspeech‑small 등 유사 모델과 비교했을 때, higgs‑audio‑v2는 미묘한 감정 표현과 복잡한 발화 상황을 더 뛰어나게 처리하며, 사후 학습 최적화가 필요하지 않습니다.
사용법
이 모델은 일반 텍스트 입력과 함께 생성된 오디오의 특성을 조정할 수 있는 선택적 구성 파라미터들을 받습니다.
파라미터
| Parameter | Description | Range / Options | Default |
|---|---|---|---|
text | 음성으로 변환할 입력 텍스트. | – | "The sun rises in the east and sets in the west" |
temperature | 생성 과정의 무작위성을 제어합니다; 값이 낮을수록 보다 결정적인 출력이 생성됩니다. | 0.1 – 1 | 0.3 |
top_p | 핵심 샘플링 파라미터로, 생성된 오디오의 다양성을 조절합니다. | 0.1 – 1 | 0.95 |
top_k | 샘플링 시 상위 k개의 토큰만을 사용하도록 제한합니다. | 1 – 100 | 50 |
max_new_tokens | 생성할 최대 오디오 토큰 수. | 256 – 2048 | 1024 |
scene_description | 오디오 환경에 대한 맥락 설명(예: 녹음 설정). | – | "Audio is recorded from a quiet room" |
system_message | 추가 제어를 위한 선택적 커스텀 시스템 메시지. | – | none |
오디오 생성 절차
- 합성하고자 하는
text를 제공합니다. - 출력의 특성을 조정하고 싶다면 원하는 옵션 파라미터를 수정합니다(예:
temperature값을 변경해 변동성을 조절). - 모델 엔드포인트에 요청을 전송합니다.
모델은 고품질 WAV 파일 형태로 합성된 음성을 반환합니다.
출력
- 오디오 파일: 생성된 음성을 담은 WAV 형식 파일로, 재생하거나 추가 처리에 바로 사용할 수 있습니다.