[Paper] VietNormalizer:一个开源、无依赖的 Python 库,用于 TTS 和 NLP 应用中的越南语文本规范化
发布: (2026年3月4日 GMT+8 22:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.04145v1
概述
本文介绍了 VietNormalizer,一个轻量级、零依赖的 Python 库,能够将充满数字、日期、缩写、表情符号和外来词的凌乱越南语文本转换为干净、完全可朗读的句子。通过处理破坏 Text‑to‑Speech(TTS)流水线和许多 NLP 模型的“非标准词”,该库填补了为构建越南语语言产品的开发者长期存在的空白。
关键贡献
- 开源、可通过 pip 安装的库,无外部依赖(无大型神经模型,无需 GPU)。
- 全面的规则驱动流水线,覆盖七大主要 NSW 类别:整数/小数、日期/时间、VND 与 USD 金额、百分比、缩略词、外来词/外语术语,以及 Unicode/表情符号清理。
- 高吞吐量设计:所有正则表达式在导入时预编译,实现快速批处理并保持极低内存占用。
- 可自定义的缩略词词典(CSV)和可扩展的音译规则,允许开发者将系统适配到特定领域词汇。
- MIT 许可证,托管于 PyPI/GitHub,鼓励社区贡献,便于集成到现有的 TTS/NLP 框架中。
方法论
VietNormalizer 采用 纯规则驱动的方法,避免使用大型语言模型:
- 预编译 – 在库初始化时,所有正则表达式模式(例如数字检测、日期格式)仅编译一次,避免运行时重新编译的开销。
- 顺序处理流水线 – 输入文本依次通过一系列确定性的模块:
- Unicode 正规化(NFC/NFKC)以及移除表情符号/特殊符号。
- 数字转换 – 通过将数字映射为越南语词汇,处理任意长度的整数、浮点数以及大数量级(千、万、亿)。
- 日期/时间处理 – 识别常见的越南语和 ISO 日期格式,并转换为口语形式(例如 “12/03/2024” → “mười hai tháng ba năm hai không bốn”)。
- 货币与百分比 – 检测 VND/USD 符号和百分号,并使用相应单位展开。
- 首字母缩写展开 – 在用户提供的 CSV 字典中查找词条(例如 “AI” → “trí tuệ nhân tạo”)。
- 音译 – 使用手工制作的映射表,对外来借词的发音进行近似(例如 “Google” → “gu-gồ”)。
- 输出 – 返回已规范化的字符串,供后续 TTS 合成或 NLP 分词使用。
由于流水线是确定性的,开发者可以 调试、扩展或重新排序 模块,而无需担心随机模型行为。
结果与发现
- 速度 – 在标准笔记本电脑(Intel i7,16 GB RAM)上的基准测试显示,处理速度约为 ≈ 10,000 条句子每秒,远超需要 GPU 推理的神经网络归一化器。
- 内存 – 加载后库占用的 RAM 不超过 30 MB,适用于边缘设备或无服务器函数。
- 覆盖率 – 在一个包含 5 k 条真实世界越南语句子(社交媒体、新闻和 TTS 脚本)的精选测试集上,VietNormalizer 正确归一化了 ≈ 96 % 的 NSW 实例,优于现有开源工具通常只能处理 60–70 % 的相同类别。
- 错误分析 指出了一些边缘情况(例如模糊的日期格式如 “01/02/03”),这些情况需要上下文消歧,仅靠基于规则的逻辑无法解决。
实际意义
- TTS pipelines 现在可以直接摄取原始用户生成内容(评论、聊天记录),无需单独的预处理步骤,从而降低延迟并简化部署。
- 针对越南市场的 语音助手 能够可靠地朗读数字、日期和外文品牌名称,提升用户体验。
- NLP 任务(如情感分析、命名实体识别或机器翻译)受益于更干净的标记流,从而提升下游准确率。
- 无服务器或移动应用 可以直接嵌入该库(得益于其极小的体积),避免昂贵的模型下载和 GPU 要求。
- 快速原型——数据科学家只需一条
pip install命令即可将 VietNormalizer 插入 Jupyter Notebook,加速对越南语语料的实验。
限制与未来工作
- 基于规则的系统 无法在没有额外语言线索的情况下解析歧义上下文(例如,“03/04/05” 可能是日期也可能是版本号)。
- 特定领域的俚语或新造的缩写 需要手动更新词典;该库不会自动学习新模式。
- 音译规则是 手工制作 的,可能无法捕捉新出现外来词的所有语音细微差别。
- 作者建议通过 轻量统计消歧(例如小型 CRF 模型)扩展框架,并探索 跨语言迁移 到其他低资源的声调语言,如泰语或缅甸语。
VietNormalizer 表明,经过精心设计、无依赖的基于规则的方法能够满足现代越南语 TTS 与 NLP 应用对实时性的高要求,为开发者提供了一种实用工具,弥合原始用户文本与高质量语言处理之间的鸿沟。
作者
- Hung Vu Nguyen
- Loan Do
- Thanh Ngoc Nguyen
- Ushik Shrestha Khwakhali
- Thanh Pham
- Vinh Do
- Charlotte Nguyen
- Hien Nguyen
论文信息
- arXiv ID: 2603.04145v1
- 分类: cs.CL, cs.NE
- 出版时间: 2026年3月4日
- PDF: 下载 PDF