루카타코(Lucataco)의 Higgs-Audio-V2 모델 입문 가이드

발행: (2026년 1월 5일 오전 11:49 GMT+9)
3 min read
원문: Dev.to

Source: Dev.to

개요

higgs-audio-v2 모델은 Lucataco가 개발한 오디오 기반 모델입니다. 1천만 시간 이상의 다양한 오디오 데이터를 학습했으며, 광범위한 파인튜닝 없이도 표현력이 풍부한 텍스트‑투‑스피치(TTS) 생성을 목표로 설계되었습니다. 이 모델은 언어와 음향에 대한 깊은 이해를 활용해 고품질 음성을 생성합니다.

성능

  • EmergentTTS‑Eval 벤치마크

    • 감정 카테고리: 75.7 % 승률 (GPT‑4o‑mini‑TTS 대비)
    • 질문 카테고리: 55.7 % 승률 (GPT‑4o‑mini‑TTS 대비)
  • xtts‑v2whisperspeech‑small 등 유사 모델과 비교했을 때, higgs‑audio‑v2는 미묘한 감정 표현과 복잡한 발화 상황을 더 뛰어나게 처리하며, 사후 학습 최적화가 필요하지 않습니다.

사용법

이 모델은 일반 텍스트 입력과 함께 생성된 오디오의 특성을 조정할 수 있는 선택적 구성 파라미터들을 받습니다.

파라미터

ParameterDescriptionRange / OptionsDefault
text음성으로 변환할 입력 텍스트."The sun rises in the east and sets in the west"
temperature생성 과정의 무작위성을 제어합니다; 값이 낮을수록 보다 결정적인 출력이 생성됩니다.0.1 – 10.3
top_p핵심 샘플링 파라미터로, 생성된 오디오의 다양성을 조절합니다.0.1 – 10.95
top_k샘플링 시 상위 k개의 토큰만을 사용하도록 제한합니다.1 – 10050
max_new_tokens생성할 최대 오디오 토큰 수.256 – 20481024
scene_description오디오 환경에 대한 맥락 설명(예: 녹음 설정)."Audio is recorded from a quiet room"
system_message추가 제어를 위한 선택적 커스텀 시스템 메시지.none

오디오 생성 절차

  1. 합성하고자 하는 text를 제공합니다.
  2. 출력의 특성을 조정하고 싶다면 원하는 옵션 파라미터를 수정합니다(예: temperature 값을 변경해 변동성을 조절).
  3. 모델 엔드포인트에 요청을 전송합니다.

모델은 고품질 WAV 파일 형태로 합성된 음성을 반환합니다.

출력

  • 오디오 파일: 생성된 음성을 담은 WAV 형식 파일로, 재생하거나 추가 처리에 바로 사용할 수 있습니다.
Back to Blog

관련 글

더 보기 »