플리토, AI 다국어 인식률 개선 위한 아랍어 음성 데이터 수집 프로젝트 착수
Source: VentureSquare
인공지능 데이터 및 솔루션 전문 기업 플리토가 아랍어 음성 데이터 수집 프로젝트를 시작

플리토(https://www.flitto.com/portal/ko)는 AI 모델의 다국어 인식률 향상을 위해 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 10일 발표했다.
-
프로젝트 목표
음성인식(STT) 모델에서 상대적으로 낮은 인식률을 보이는 아랍어(표준어 MSA 외 30개 이상 방언)의 성능 개선. -
특징
- 일상 대화에서 표준어와 방언이 혼용되는 코드 스위칭 현상이 빈번해 AI 학습 데이터 구축 난이도가 높음.
- 플리토 모바일 앱에 탑재된 ‘아케이드’ 기능을 활용해 음성 데이터 수집 이벤트 진행.
- 참여자는 제시된 문장을 읽고 녹음 → AI가 방언 유형을 판별.
- 방언 구분이 불확실하면 추가 문장을 제시해 재참여를 유도, 데이터 정확도 향상.
-
배경
글로벌 빅테크 기업을 중심으로 다국어 음성 데이터 수요가 지속적으로 증가하고 있어, 실제 프로젝트 요청뿐 아니라 잠재 수요에 선제적으로 대응하기 위해 추진. -
기대 효과
발화자의 억양·발음·어휘 선택 등 언어적 다양성을 반영한 학습용 데이터 구축 → AI 학습 편향 완화 및 실제 사용 환경에서 높은 인식률 구현.
이정수 플리토 대표
“아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어지만 AI 학습용 데이터는 상대적으로 부족한 저자원 언어입니다. 이번 프로젝트를 통해 실제 사용 맥락을 충실히 반영한 데이터를 구축해 글로벌 AI 모델의 아랍어 인식 품질 향상에 기여하겠습니다.”
- 관련 기사 더 보기
Source: …
플루토, 아랍어 음성 데이터 수집 프로젝트 시작해 AI 다국어 인식 개선

Pluto는 인공지능 데이터 및 솔루션 기업으로, 10일 고품질 아랍어 음성 데이터를 수집해 AI 모델의 다국어 인식률을 높이는 새로운 프로젝트를 시작했다고 발표했습니다.
-
프로젝트 목표
인식률이 상대적으로 낮은 음성‑텍스트 변환(STT) 모델에서 아랍어 성능을 향상시킵니다. -
핵심 내용
- 아랍어는 표준어(MSA)와 30개가 넘는 방언을 포함하고 있으며, 빈번한 코드‑스위칭으로 데이터 수집이 어려운 상황입니다.
- 플루토 모바일 앱의 “Arcade” 음성 데이터 수집 기능을 활용해 아랍어 음성 데이터 수집 이벤트를 진행합니다.
- 참가자는 제시된 문장을 읽고 음성을 녹음하며, AI 시스템이 녹음 파일을 분석해 방언 유형을 판단합니다.
- 방언이 명확하지 않을 경우 추가 문장을 제공해 재참여를 유도하고, 데이터 정확성을 높입니다.
-
시점이 중요한 이유
다국어 음성 데이터에 대한 수요가 지속적으로 증가하고 있으며, 특히 글로벌 대기업들의 요구가 커지고 있습니다. 플루토는 현재 프로젝트 요청과 향후 잠재 수요를 모두 충족하기 위해 선제적으로 움직이고 있습니다. -
예상 효과
수집된 데이터는 억양, 발음 패턴, 어휘 선택 등 언어적 다양성을 반영해, 자원 격차로 인한 AI 학습 편향을 완화하고 실제 환경에서 높은 인식률을 제공하는 데이터셋을 구축하는 데 기여합니다.
플루토 대표 이정수
“아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어이지만 AI 학습에서는 아직 저자원 언어에 머물러 있습니다. 이번 프로젝트를 통해 실제 아랍어 사용을 충실히 반영한 데이터를 구축함으로써 글로벌 AI 모델의 아랍어 인식 품질을 향상시키고자 합니다.”
- 관련 기사 더 보기
프리토가 AI 다국어 인식률을 개선하기 위한 아라비아어 음성 데이터 수집 프로젝트 시작

인공지능 데이터와 솔루션을 전문으로 하는 기업인 Plito는 AI 모델의 다국어 인식률 향상을 위해 고품질 아라비아어 음성 데이터를 수집하는 신규 프로젝트를 10일 시작했다고 밝혔습니다.
-
프로젝트 목적
음성 인식(STT) 모델에서 비교적 낮은 인식률을 보이는 아라비아어 성능을 개선합니다. -
특징
- 표준어(MSA) 외에 30개 이상의 방언이 존재하고, 코드 스위칭이 빈번하게 발생해 데이터 구축이 어려운 점.
- 프리토 모바일 앱에 탑재된 음성 데이터 수집 기능 “아케이드”를 활용해 아라비아어 음성 데이터 수집 이벤트를 진행.
- 참가자는 제시된 문장을 읽고 녹음하면 AI가 발화 데이터를 분석해 방언 유형을 판별합니다.
- 방언이 불명확한 경우 추가 문장을 제시하고 재참여를 유도해 데이터 정확도를 높입니다.
-
배경
글로벌 빅테크 기업을 중심으로 다국어 음성 데이터 수요가 증가하고 있으며, 실제 프로젝트 요구뿐 아니라 잠재 수요에 선제적으로 대응하기 위해 본 프로젝트를 추진합니다. -
기대 효과
발화자의 억양, 발음 패턴, 어휘 선택 등 언어적 다양성을 반영한 학습용 데이터를 구축해 언어 자원의 편차에 따른 AI 학습 편향을 완화합니다. 실제 사용 환경에서도 높은 인식률을 구현할 수 있는 데이터셋으로 고도화할 계획입니다.
이·존스 프리토 대표
“아라비아어는 전 세계 4억 명 이상이 사용하는 주요 언어이지만, AI 학습용 데이터는 상대적으로 부족한 저자원 언어입니다. 이번 프로젝트를 통해 실제 사용 상황을 충실히 반영한 데이터를 구축하고, 글로벌 AI 모델의 아라비아어 인식 품질 향상에 기여하겠습니다.”
- 관련 기사 더 보기
Source:
Pluto가 프로젝트를 시작, 아랍어 음성 데이터를 수집해 AI 다국어 인식 기술을 개선

인공지능 데이터 및 솔루션 기업 Pluto 가 10일, 고품질 아랍어 음성 데이터를 수집해 인공지능 모델의 다국어 인식률을 높이기 위한 새로운 프로젝트를 시작한다고 발표했습니다.
- 이번 프로젝트는 음성‑텍스트 변환(STT) 모델에서 아랍어 인식률을 향상시키는 것을 목표로 합니다. 아랍어는 표준어인 MSA 외에도 30여 개의 방언이 존재합니다. 일상 대화에서 표준어와 방언이 빈번히 전환되면서 언어 코드 스위칭이 발생해 AI 학습 데이터를 구축하기가 매우 어렵습니다.
- Pluto는 모바일 앱에 내장된 “Arcade” 음성 데이터 수집 기능을 활용해 아랍어 음성 데이터 수집 활동을 진행하고 있습니다. 참여자는 제시된 문장을 읽고 자신의 음성을 녹음하며, 인공지능 시스템이 음성 데이터를 분석해 방언 유형을 판단합니다. 방언 유형이 명확하지 않을 경우, 시스템은 추가 문장을 제공해 참여자가 다시 녹음하도록 유도해 데이터 정확성을 높입니다.
- 회사는 이번 프로젝트를 추진하는 이유가 잠재적 수요와 실제 프로젝트 요청에 적극 대응하기 위함이며, 특히 글로벌 대형 기술 기업들 사이에서 다국어 음성 데이터에 대한 수요가 지속적으로 증가하고 있기 때문이라고 설명했습니다.
- Pluto는 이번 데이터 수집을 통해 화자의 억양, 발음 패턴, 어휘 선택 등 언어 다양성을 반영한 학습 데이터를 만들 수 있을 것으로 보고 있습니다. 이를 바탕으로 언어 자원 격차가 초래하는 AI 학습 편향을 완화하고, 실제 환경에서 높은 인식률을 달성할 수 있는 데이터셋을 개발할 계획입니다.
Pluto 회사의 최고경영자 이정수는 “아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어이지만, AI 학습에 활용할 데이터가 부족한 자원 빈곤 언어입니다.”라며 “이번 프로젝트를 통해 아랍어 실제 사용 상황을 그대로 반영한 데이터를 구축함으로써 전 세계 AI 모델의 아랍어 인식 품질 향상에 기여하겠습니다.”라고 덧붙였습니다.
- 관련 기사 더 보기
Source: https://www.venturesquare.net/2026/02/10/pluto-voice-data-arabic
플루토, 다국어 AI 인식 향상을 위한 아랍어 음성 데이터 수집 프로젝트 시작

**Pluto**는 데이터 및 인공지능 솔루션을 전문으로 하는 기업으로, 10일에 고품질 아랍어 음성 데이터를 수집해 AI 모델의 다국어 인식률을 높이겠다는 새로운 프로젝트를 시작했다고 발표했습니다.
- 이 프로젝트는 음성 인식률이 비교적 낮은 아랍어의 성능을 향상시키는 것을 목표로 합니다. 현대 표준 아랍어(MSA) 외에도 아랍어에는 30개 이상의 방언이 존재합니다. 일상 대화에서 표준 아랍어와 방언이 혼용되는 코드 스위칭 현상 때문에, AI 학습용 데이터 구축이 어려운 언어입니다.
- 플루토는 모바일 앱에 내장된 «Arcade» 기능을 통해 아랍어 음성 데이터를 수집합니다. 참가자는 문장을 읽고 자신의 목소리를 녹음합니다. AI 시스템이 이 데이터를 분석해 방언을 판별하고, 방언이 불명확할 경우 추가 문장을 제시해 다시 참여하도록 유도함으로써 데이터 정확성을 높입니다.
- 회사는 이 프로젝트를 잠재적인 수요와 실제 프로젝트 요청에 선제적으로 대응하기 위해 시작했으며, 다국어 음성 데이터에 대한 수요가 특히 글로벌 대기업들 사이에서 계속 증가하고 있다고 설명했습니다.
- 플루토는 이번 데이터 수집을 통해 억양, 발음 패턴, 어휘 등 화자의 언어적 다양성을 반영한 학습 데이터셋을 만들 수 있을 것으로 기대합니다. 이러한 정보를 바탕으로 언어 자원 변동에 따른 AI 학습 편향을 완화하고, 실제 상황에서 높은 인식률을 달성할 수 있는 데이터셋을 개발할 계획입니다.
플루토 대표이사 이정수는 “아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어이지만, 자원이 제한된 언어로 AI 학습에 필요한 데이터가 상대적으로 부족합니다.”라며, “이번 프로젝트를 통해 실제 사용 환경을 충실히 반영한 데이터를 구축함으로써 글로벌 AI 모델의 아랍어 인식 품질을 향상시키는 데 기여하겠습니다.”라고 덧붙였습니다.
- 관련 기사 더 보기