Mistral, 음성 생성용 새로운 오픈소스 모델을 출시

발행: (2026년 3월 26일 PM 08:30 GMT+9)
4 분 소요
원문: TechCrunch

Source: TechCrunch

Mistral의 새로운 오픈소스 음성 생성 모델

프랑스 AI 기업 Mistral은 목요일에 음성 AI 어시스턴트나 고객 지원과 같은 기업용 사례에 활용할 수 있는 새로운 오픈소스 텍스트‑투‑스피치 모델을 발표했습니다. 기업이 영업 및 고객 참여를 위한 음성 에이전트를 구축할 수 있게 해주는 이 모델은 Mistral을 ElevenLabs, Deepgram, OpenAI와 직접 경쟁하게 만들었습니다.

Image credit: Mistral

Voxtral TTS – 언어 지원

Voxtral TTS는 아홉 개 언어를 지원합니다:

  • 영어
  • 프랑스어
  • 독일어
  • 스페인어
  • 네덜란드어
  • 포르투갈어
  • 이탈리아어
  • 힌디어
  • 아랍어

모델 기능

“우리 고객들은 음성 모델을 원했습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 디바이스에 탑재할 수 있는 소형 음성 모델을 만들었습니다. 비용은 시장에 나와 있는 다른 제품의 일부에 불과하지만, 최첨단 성능을 제공합니다.”
— Pierre Stock, Mistral AI 과학 운영 부사장 (TechCrunch 인터뷰)

Mistral은 이 모델이 5초 미만의 샘플만으로도 맞춤형 목소리를 적용할 수 있으며, 미묘한 억양, 인토네이션, 말 흐름의 불규칙성을 포착한다고 밝혔습니다. Ministral 3B 아키텍처를 기반으로 구축된 Voxtral TTS는 목소리 특성을 유지하면서 언어 간 전환이 가능해 더빙이나 실시간 번역에 적합합니다. Stock은 목표가 로봇처럼 들리는 것이 아니라 인간처럼 들리게 하는 것이라고 강조했습니다.

실시간 성능

  • Time‑to‑First‑Audio (TTFA): 10초 샘플(≈ 500자) 기준 90 ms
  • Real‑Time Factor (RTF): 6×, 즉 10초 클립을 약 1.6 초에 렌더링

Image credit: Mistral AI

관련 음성 제품

올해 초, Mistral은 대량 배치 처리용 모델과 저지연 실시간 사용 사례용 모델, 두 가지 전사 모델을 출시했습니다. 자세한 내용은 Voxtral Transcribe 2 모델 발표에서 확인할 수 있습니다.

로드맵 및 플랫폼 비전

“우리는 오디오, 텍스트, 이미지 등 다양한 입력 스트림을 처리하고 출력까지 할 수 있는 엔드‑투‑엔드 플랫폼을 구축할 계획입니다. 주요 이점은 오디오를 입력이나 출력으로 지원하는 엔드‑투‑엔드 에이전시 시스템을 통해 훨씬 더 많은 정보를 얻을 수 있다는 점입니다.”
— Pierre Stock

Mistral은 오픈소스이면서 높은 커스터마이징이 가능한 접근 방식을 기업이 자체 요구에 맞게 음성 모델을 조정하려는 차별화 요소로 내세우고 있습니다.

0 조회
Back to Blog

관련 글

더 보기 »

위키피디아, AI 생성 기사 금지

위키피디아는 이제 편집자들이 AI를 사용해 기사 작성이나 재작성하는 것을 허용하지 않을 것입니다. 지난 주 말 위키피디아 가이드라인에 추가된 이번 업데이트는 ...