Plito启动阿拉伯语语音数据收集项目,提升AI多语言识别率
Source: VentureSquare
人工智能数据及解决方案专业企业 Flitto 启动阿拉伯语语音数据收集项目

Flitto(https://www.flitto.com/portal/ko)于10日宣布推出一项新项目,旨在收集高质量的阿拉伯语语音数据,以提升 AI 模型的多语言识别率。
-
项目目标
改善在语音识别(STT)模型中识别率相对较低的阿拉伯语(除标准阿拉伯语 MSA 外的 30 多种方言)的性能。 -
特点
- 日常对话中标准语与方言交替出现的 代码切换 现象频繁,使 AI 训练数据的构建难度较大。
- 利用 Flitto 移动应用内的 “Arcade” 功能开展语音数据收集活动。
- 参与者朗读提供的句子并录音 → AI 判别方言类型。
- 若方言划分不明确,则提供额外句子引导重新参与,提高数据准确性。
-
背景
随着全球大型科技公司对多语言语音数据需求的持续增长,为了不仅响应实际项目需求,还能前瞻性地满足潜在需求,特此推进此项目。 -
预期效果
构建涵盖说话人语调、发音、词汇选择等语言多样性的训练数据 → 缓解 AI 学习偏差,并在实际使用环境中实现更高的识别率。
Flitto CEO 李政秀
“阿拉伯语是全球超过 4 亿人使用的主要语言,但用于 AI 训练的数据相对匮乏,属于低资源语言。通过本项目,我们将构建真实使用场景的高质量数据,助力提升全球 AI 模型的阿拉伯语识别质量。”
- 查看更多相关报道
Pluto启动项目收集阿拉伯语语音数据以提升AI多语言识别

Pluto,一家人工智能数据与解决方案公司,宣布于10日启动一项新项目,旨在收集高质量的阿拉伯语语音数据,以提升AI模型的多语言识别率。
-
项目目标
提升阿拉伯语在语音转文字(STT)模型中的表现,当前识别率相对较低。 -
关键要点
- 阿拉伯语包括标准语言(现代标准阿拉伯语)以及30多种方言;频繁的代码切换使数据收集具有挑战性。
- Pluto移动应用中的“Arcade”语音数据收集功能用于本次阿拉伯语语音数据收集活动。
- 参与者朗读提供的句子并录音;AI系统分析录音以确定方言类型。
- 如果方言不明确,将提供额外句子以鼓励重新参与,提高数据准确性。
-
为何现在
多语言语音数据的需求持续增长,尤其是全球大型科技公司。Pluto积极行动,以满足当前项目需求和潜在的未来需求。 -
预期影响
收集的数据将反映语言多样性——语调、发音模式、词汇选择——使Pluto能够缓解因资源不均导致的AI学习偏差,并开发出在真实环境中实现高识别率的数据集。
Lee Jeong‑su, CEO of Pluto
“阿拉伯语是全球超过4亿人使用的主要语言,但在AI训练中仍属低资源语言。通过此项目,我们将构建真实反映阿拉伯语使用情况的数据,帮助提升全球AI模型的阿拉伯语识别质量。”
- 查看更多相关文章
Plito启动阿拉伯语语音数据收集项目,以提升AI多语言识别率

人工智能数据与解决方案专业公司Plito于10日宣布,已启动一项新项目,旨在收集高质量的阿拉伯语语音数据,以提升AI模型的多语言识别率。
-
项目目的
改善在语音识别(STT)模型中表现相对较低的阿拉伯语识别性能。 -
特点
- 除标准阿拉伯语(MSA)外,还存在30余种方言,且代码切换频繁,导致数据构建难度大。
- 利用Plito移动应用内的语音数据收集功能“Arcade”,开展阿拉伯语语音数据收集活动。
- 参与者朗读并录制提供的句子,AI对发音数据进行分析并判别方言类型。
- 若方言不确定,系统会提供额外句子并邀请重新参与,以提升数据精度。
-
背景
以全球大型科技公司为主的多语言语音数据需求日益增长,为了在满足实际项目需求的同时抢先应对潜在需求,推动了本项目的实施。 -
预期效果
构建反映说话人语调、发音模式、词汇选择等语言多样性的学习数据,缓解因语言资源偏差导致的AI学习偏向。计划将数据集提升为在实际使用环境中也能实现高识别率的高质量资源。
李钟秀 Plito 代表
“阿拉伯语是全球超过4亿人使用的主要语言,但相对而言,它是数据相对匮乏的低资源语言。通过本项目,我们将构建忠实反映实际使用情况的数据,助力提升全球AI模型的阿拉伯语识别质量。”
- 查看更多相关文章
Pluto启动项目,收集阿拉伯语语音数据以改进人工智能多语言识别技术

人工智能数据和解决方案公司 Pluto 于 10 日宣布,已启动一项新项目,旨在收集高质量的阿拉伯语语音数据,以提高人工智能模型的多语言识别率。
- 本项目旨在提升阿拉伯语在语音转文本(STT)模型中的识别率,该语言的识别率一直相对较低。除了标准语 MSA 之外,阿拉伯语还有 30 多种方言。由于日常对话中标准语和方言频繁切换,阿拉伯语的语码转换使得构建人工智能训练数据变得十分困难。
- Pluto 正在开展一项阿拉伯语语音数据采集活动,该活动利用其移动应用程序内置的 “Arcade” 语音数据采集功能。参与者朗读呈现的句子并录制自己的声音,人工智能系统会分析语音数据以确定方言类型。如果方言类型不明确,系统会提供额外的句子以鼓励参与者再次参与,从而提高数据的准确性。
- 该公司解释说,之所以推进这个项目,是为了积极响应潜在需求以及实际项目请求,因为对多语言语音数据的需求持续增长,尤其是在全球大型科技公司中。
- Pluto 认为,此次数据收集将有助于创建反映语言多样性的训练数据,包括说话者的语调、发音模式和词汇选择。基于此,Pluto 计划减轻语言资源差异造成的 AI 学习偏差,并开发一个能够在真实环境中实现高识别率的数据集。
Pluto 公司首席执行官 李正洙 表示:“阿拉伯语是全球超过 4 亿人使用的主要语言,但它是一种资源匮乏的语言,用于人工智能训练的数据相对不足。” 他补充道:“通过这个项目,我们将构建能够真实反映阿拉伯语实际使用语境的数据,从而为提升全球人工智能模型中阿拉伯语识别的质量做出贡献。”
- 查看更多相关文章
Source: …
Pluto 发起阿拉伯语语音数据收集项目,以提升 AI 的多语言识别能力

Pluto,一家专注于数据和人工智能解决方案的公司,宣布于 10 日启动一项新项目,旨在收集高质量的阿拉伯语语音数据,以提升 AI 模型的多语言识别率。
- 该项目旨在改善阿拉伯语的识别表现。阿拉伯语的语音识别率相对较低。除了现代标准阿拉伯语(MSA)外,阿拉伯语还有 30 多种方言。代码切换现象——在日常对话中标准阿拉伯语与方言交替使用——使得为 AI 构建训练数据变得困难。
- Pluto 通过其移动应用内嵌的 「Arcade」 功能组织阿拉伯语语音数据收集。参与者朗读句子并录制自己的声音。AI 系统随后分析这些数据以确定方言。如果方言不确定,系统会提供额外句子,鼓励参与者再次参与,从而提升数据的准确性。
- 公司解释称,启动此项目是为了主动响应潜在需求以及实际项目的请求,因为多语言语音数据的需求持续增长,尤其是全球大型科技公司对这类数据的需求。
- Pluto 估计,此次数据收集将打造一个反映语言多样性的训练数据集,涵盖说话者的语调、发音模式和词汇等信息。凭借这些数据,Pluto 计划减轻 AI 学习过程中的语言资源差异偏差,并开发出在真实场景中能够实现高识别率的数据集。
Pluto 首席执行官 Lee Jeong‑su 表示:“阿拉伯语是全球超过 4 亿人使用的主要语言,但它是一种资源有限的语言,训练 AI 所需的数据相对不足。”他补充道:“通过此项目,我们将通过构建真实使用场景下的阿拉伯语数据,帮助提升全球 AI 模型对阿拉伯语的识别质量。”
- 查看更多相关报道