Mistral, 음성 생성용 새로운 오픈소스 모델을 출시

발행: 8시간 전 (2026년 3월 26일 PM 08:30 GMT+9)

4 분 소요

Source: TechCrunch

Mistral의 새로운 오픈소스 음성 생성 모델

프랑스 AI 기업 Mistral은 목요일에 음성 AI 어시스턴트나 고객 지원과 같은 기업용 사례에 활용할 수 있는 새로운 오픈소스 텍스트‑투‑스피치 모델을 발표했습니다. 기업이 영업 및 고객 참여를 위한 음성 에이전트를 구축할 수 있게 해주는 이 모델은 Mistral을 ElevenLabs, Deepgram, OpenAI와 직접 경쟁하게 만들었습니다.

Image credit: Mistral

Voxtral TTS – 언어 지원

Voxtral TTS는 아홉 개 언어를 지원합니다:

영어
프랑스어
독일어
스페인어
네덜란드어
포르투갈어
이탈리아어
힌디어
아랍어

모델 기능

“우리 고객들은 음성 모델을 원했습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 디바이스에 탑재할 수 있는 소형 음성 모델을 만들었습니다. 비용은 시장에 나와 있는 다른 제품의 일부에 불과하지만, 최첨단 성능을 제공합니다.”
— Pierre Stock, Mistral AI 과학 운영 부사장 (TechCrunch 인터뷰)

Mistral은 이 모델이 5초 미만의 샘플만으로도 맞춤형 목소리를 적용할 수 있으며, 미묘한 억양, 인토네이션, 말 흐름의 불규칙성을 포착한다고 밝혔습니다. Ministral 3B 아키텍처를 기반으로 구축된 Voxtral TTS는 목소리 특성을 유지하면서 언어 간 전환이 가능해 더빙이나 실시간 번역에 적합합니다. Stock은 목표가 로봇처럼 들리는 것이 아니라 인간처럼 들리게 하는 것이라고 강조했습니다.

실시간 성능

Time‑to‑First‑Audio (TTFA): 10초 샘플(≈ 500자) 기준 90 ms
Real‑Time Factor (RTF): 6×, 즉 10초 클립을 약 1.6 초에 렌더링

Image credit: Mistral AI

로드맵 및 플랫폼 비전

“우리는 오디오, 텍스트, 이미지 등 다양한 입력 스트림을 처리하고 출력까지 할 수 있는 엔드‑투‑엔드 플랫폼을 구축할 계획입니다. 주요 이점은 오디오를 입력이나 출력으로 지원하는 엔드‑투‑엔드 에이전시 시스템을 통해 훨씬 더 많은 정보를 얻을 수 있다는 점입니다.”
— Pierre Stock

Mistral은 오픈소스이면서 높은 커스터마이징이 가능한 접근 방식을 기업이 자체 요구에 맞게 음성 모델을 조정하려는 차별화 요소로 내세우고 있습니다.

Mistral, 음성 생성용 새로운 오픈소스 모델을 출시

Mistral의 새로운 오픈소스 음성 생성 모델

Voxtral TTS – 언어 지원

모델 기능

실시간 성능

관련 음성 제품

로드맵 및 플랫폼 비전

관련 글

Mistral, 음성 생성용 새로운 오픈소스 모델 출시

위키피디아가 AI 생성 문서를 금지했습니다

위키피디아, AI 생성 기사 금지

WhatsApp이 메시지에 대한 AI 작성 답장이라는 끔찍한 추세에 동참