Mistral, 음성 생성용 새로운 오픈소스 모델 출시

발행: (2026년 3월 26일 PM 08:30 GMT+9)
4 분 소요
원문: TechCrunch

Source: TechCrunch

개요

프랑스 AI 기업 Mistral이 목요일에 새로운 오픈소스 텍스트‑투‑스피치 모델 Voxtral TTS를 출시했습니다. 이 모델은 음성 AI 어시스턴트와 고객 지원과 같은 엔터프라이즈 사용 사례를 위해 설계되었으며, 기업이 영업 및 고객 참여를 위한 음성 에이전트를 구축할 수 있게 합니다. 이를 통해 Mistral은 ElevenLabs, Deepgram, OpenAI와 직접 경쟁하게 됩니다.

지원 언어

Voxtral TTS는 아홉 가지 언어를 지원합니다:

  • 영어
  • 프랑스어
  • 독일어
  • 스페인어
  • 네덜란드어
  • 포르투갈어
  • 이탈리아어
  • 힌디어
  • 아랍어

주요 특징

  • 엣지 친화적 크기 – 스마트워치, 스마트폰, 노트북 또는 기타 엣지 디바이스에서도 실행할 수 있을 만큼 작습니다.
  • 저비용 – 경쟁 솔루션에 비해 훨씬 낮은 가격에 최첨단 성능을 제공합니다.
  • 맞춤 음성 적응 – 5초 미만의 샘플만으로도 맞춤 음성을 생성할 수 있어 미세한 억양, 인토네이션, 발음 변화를 포착합니다.
  • 다언어 일관성Ministral 3B를 기반으로 하여 언어를 전환해도 음성 특성이 유지되며, 더빙 및 실시간 번역에 유용합니다.
  • 인간 같은 출력 – 로봇처럼 들리지 않고 자연스럽게 들리도록 설계되었습니다.

Mistral image
이미지 출처: Mistral

성능

  • 첫 오디오까지 시간 (TTFA): 10초 샘플(≈ 500자) 기준 90 ms.
  • 실시간 계수 (RTF): 6×, 즉 10초 클립을 약 1.6 초에 렌더링합니다.

Performance chart
이미지 출처: Mistral AI

관련 출시

올해 초, Mistral은 대용량 배치 처리와 저지연 실시간 사용 사례를 위한 두 가지 전사 모델인 Voxtral Transcribe 2를 출시했습니다. 이번 새로운 음성 모델은 엔터프라이즈를 위한 완전한 음성 제품군으로 Mistral의 포트폴리오를 확장합니다.

향후 로드맵

Mistral은 오디오, 텍스트, 이미지 입력 및 출력을 모두 처리할 수 있는 멀티모달 스트림을 지원하는 엔드‑투‑엔드 플랫폼 구축을 목표로 하고 있습니다. 이를 통해 보다 풍부한 정보를 처리하고 오디오를 입력과 출력 모두로 활용하는 에이전트를 구현할 수 있게 됩니다.


자세한 내용은 Mistral 웹사이트를 방문하거나 링크된 문서를 참고하십시오.

0 조회
Back to Blog

관련 글

더 보기 »

위키피디아, AI 생성 기사 금지

위키피디아는 이제 편집자들이 AI를 사용해 기사 작성이나 재작성하는 것을 허용하지 않을 것입니다. 지난 주 말 위키피디아 가이드라인에 추가된 이번 업데이트는 ...