루카타코의 Singing_voice_conversion 모델 초보자 가이드 (Replicate)

발행: (2026년 1월 5일 오후 12:31 GMT+9)
4 min read
원문: Dev.to

Source: Dev.to

Cover image for A beginner's guide to the Singing_voice_conversion model by Lucataco on Replicate

*이 가이드는 Lucataco가 관리하는 AI 모델 **Singing_voice_conversion*에 대한 간략한 안내입니다. 이런 분석이 마음에 든다면 AImodels.fyi에 가입하거나 Twitter에서 팔로우하세요.

모델 개요

singing_voice_conversion 모델은 원본 가수의 목소리를 다른 목표 가수의 목소리처럼 변환하면서도 원래의 멜로디와 가사를 유지합니다. Amphion 프레임워크와 DiffWaveNetSVC 기술을 기반으로 하며, 다양한 의미 기반 특징 융합을 통해 소스 오디오에서 화자와 무관한 표현을 추출합니다. 단순한 오디오 변환 도구와 달리, 이 구현은 멜로디, 가사, 음향 특성에 대한 보완적인 지식을 포착하기 위해 여러 사전 학습 모델을 결합합니다.

이 모델은 Taylor Swift, Adele, Beyoncé, Bruno Mars, John Mayer, Michael Jackson 등 서구 유명 아티스트와 중국 가수(张学友, 李健, 汪峰, 王菲, 石倚洁, 蔡琴, 那英, 陈奕迅, 陶喆)를 포함한 15명의 목표 가수를 지원합니다. Lucataco가 만든 이 모델은 whisperspeech‑small 같은 기본 텍스트‑투‑스피치 시스템보다 더 정교한 음성 변환을 제공하며, 단순히 말하기 패턴을 변환하는 것이 아니라 노래의 음악적·감정적 뉘앙스를 보존합니다.

모델 입력 및 출력

입력

  • source_audio – 변환하려는 원본 노래 목소리가 들어 있는 오디오 파일.
  • target_singer – 위에 열거된 15명 중에서 선택할 목표 가수.
  • pitch_shift_control – 자동 피치 조정을 위한 “Auto Shift”와 수동 조정을 위한 “Key Shift” 중 선택.
  • key_shift_mode – Key Shift 모드 사용 시 -6에서 +6 반음까지 수동 피치 조정 범위.
  • diffusion_inference_steps – 0~1000 단계의 품질 제어 파라미터; 값이 클수록 품질은 향상되지만 처리 시간이 늘어납니다.

출력

  • Audio file – 원곡 구조를 유지하면서 목표 가수 스타일로 변환된 노래 목소리 오디오 파일.

기능

이 모델은 피치, 타이밍, 가사 내용 등 음악적 요소를 유지하면서 선택한 목표 가수에 맞게 보컬 음색을 조정하는 데 뛰어납니다.

Click here to read the full guide to Singing_voice_conversion

Back to Blog

관련 글

더 보기 »