Mistral, 음성 생성용 새로운 오픈소스 모델 출시

발행: 8시간 전 (2026년 3월 26일 PM 08:30 GMT+9)

4 분 소요

Source: TechCrunch

개요

프랑스 AI 기업 Mistral이 목요일에 새로운 오픈소스 텍스트‑투‑스피치 모델 Voxtral TTS를 출시했습니다. 이 모델은 음성 AI 어시스턴트와 고객 지원과 같은 엔터프라이즈 사용 사례를 위해 설계되었으며, 기업이 영업 및 고객 참여를 위한 음성 에이전트를 구축할 수 있게 합니다. 이를 통해 Mistral은 ElevenLabs, Deepgram, OpenAI와 직접 경쟁하게 됩니다.

지원 언어

Voxtral TTS는 아홉 가지 언어를 지원합니다:

영어
프랑스어
독일어
스페인어
네덜란드어
포르투갈어
이탈리아어
힌디어
아랍어

주요 특징

엣지 친화적 크기 – 스마트워치, 스마트폰, 노트북 또는 기타 엣지 디바이스에서도 실행할 수 있을 만큼 작습니다.
저비용 – 경쟁 솔루션에 비해 훨씬 낮은 가격에 최첨단 성능을 제공합니다.
맞춤 음성 적응 – 5초 미만의 샘플만으로도 맞춤 음성을 생성할 수 있어 미세한 억양, 인토네이션, 발음 변화를 포착합니다.
다언어 일관성 – Ministral 3B를 기반으로 하여 언어를 전환해도 음성 특성이 유지되며, 더빙 및 실시간 번역에 유용합니다.
인간 같은 출력 – 로봇처럼 들리지 않고 자연스럽게 들리도록 설계되었습니다.

Mistral image
이미지 출처: Mistral

성능

첫 오디오까지 시간 (TTFA): 10초 샘플(≈ 500자) 기준 90 ms.
실시간 계수 (RTF): 6×, 즉 10초 클립을 약 1.6 초에 렌더링합니다.

Performance chart
이미지 출처: Mistral AI

향후 로드맵

Mistral은 오디오, 텍스트, 이미지 입력 및 출력을 모두 처리할 수 있는 멀티모달 스트림을 지원하는 엔드‑투‑엔드 플랫폼 구축을 목표로 하고 있습니다. 이를 통해 보다 풍부한 정보를 처리하고 오디오를 입력과 출력 모두로 활용하는 에이전트를 구현할 수 있게 됩니다.

자세한 내용은 Mistral 웹사이트를 방문하거나 링크된 문서를 참고하십시오.

Mistral, 음성 생성용 새로운 오픈소스 모델 출시

개요

지원 언어

주요 특징

성능

관련 출시

향후 로드맵

관련 글

Mistral, 음성 생성용 새로운 오픈소스 모델을 출시

위키피디아가 AI 생성 문서를 금지했습니다

위키피디아, AI 생성 기사 금지

WhatsApp이 메시지에 대한 AI 작성 답장이라는 끔찍한 추세에 동참