[Paper] VietNormalizer：一个开源、无依赖的 Python 库，用于 TTS 和 NLP 应用中的越南语文本规范化

发布: 1天前 (2026年3月4日 GMT+8 22:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.04145v1

概述

本文介绍了 VietNormalizer，一个轻量级、零依赖的 Python 库，能够将充满数字、日期、缩写、表情符号和外来词的凌乱越南语文本转换为干净、完全可朗读的句子。通过处理破坏 Text‑to‑Speech（TTS）流水线和许多 NLP 模型的“非标准词”，该库填补了为构建越南语语言产品的开发者长期存在的空白。

关键贡献

开源、可通过 pip 安装的库，无外部依赖（无大型神经模型，无需 GPU）。
全面的规则驱动流水线，覆盖七大主要 NSW 类别：整数/小数、日期/时间、VND 与 USD 金额、百分比、缩略词、外来词/外语术语，以及 Unicode/表情符号清理。
高吞吐量设计：所有正则表达式在导入时预编译，实现快速批处理并保持极低内存占用。
可自定义的缩略词词典（CSV）和可扩展的音译规则，允许开发者将系统适配到特定领域词汇。
MIT 许可证，托管于 PyPI/GitHub，鼓励社区贡献，便于集成到现有的 TTS/NLP 框架中。

方法论

VietNormalizer 采用 纯规则驱动的方法，避免使用大型语言模型：

预编译 – 在库初始化时，所有正则表达式模式（例如数字检测、日期格式）仅编译一次，避免运行时重新编译的开销。
顺序处理流水线 – 输入文本依次通过一系列确定性的模块：
- Unicode 正规化（NFC/NFKC）以及移除表情符号/特殊符号。
- 数字转换 – 通过将数字映射为越南语词汇，处理任意长度的整数、浮点数以及大数量级（千、万、亿）。
- 日期/时间处理 – 识别常见的越南语和 ISO 日期格式，并转换为口语形式（例如 “12/03/2024” → “mười hai tháng ba năm hai không bốn”）。
- 货币与百分比 – 检测 VND/USD 符号和百分号，并使用相应单位展开。
- 首字母缩写展开 – 在用户提供的 CSV 字典中查找词条（例如 “AI” → “trí tuệ nhân tạo”）。
- 音译 – 使用手工制作的映射表，对外来借词的发音进行近似（例如 “Google” → “gu-gồ”）。
输出 – 返回已规范化的字符串，供后续 TTS 合成或 NLP 分词使用。

由于流水线是确定性的，开发者可以 调试、扩展或重新排序 模块，而无需担心随机模型行为。

结果与发现

速度 – 在标准笔记本电脑（Intel i7，16 GB RAM）上的基准测试显示，处理速度约为 ≈ 10,000 条句子每秒，远超需要 GPU 推理的神经网络归一化器。
内存 – 加载后库占用的 RAM 不超过 30 MB，适用于边缘设备或无服务器函数。
覆盖率 – 在一个包含 5 k 条真实世界越南语句子（社交媒体、新闻和 TTS 脚本）的精选测试集上，VietNormalizer 正确归一化了 ≈ 96 % 的 NSW 实例，优于现有开源工具通常只能处理 60–70 % 的相同类别。
错误分析 指出了一些边缘情况（例如模糊的日期格式如 “01/02/03”），这些情况需要上下文消歧，仅靠基于规则的逻辑无法解决。

实际意义

TTS pipelines 现在可以直接摄取原始用户生成内容（评论、聊天记录），无需单独的预处理步骤，从而降低延迟并简化部署。
针对越南市场的 语音助手 能够可靠地朗读数字、日期和外文品牌名称，提升用户体验。
NLP 任务（如情感分析、命名实体识别或机器翻译）受益于更干净的标记流，从而提升下游准确率。
无服务器或移动应用 可以直接嵌入该库（得益于其极小的体积），避免昂贵的模型下载和 GPU 要求。
快速原型——数据科学家只需一条 pip install 命令即可将 VietNormalizer 插入 Jupyter Notebook，加速对越南语语料的实验。

限制与未来工作

基于规则的系统 无法在没有额外语言线索的情况下解析歧义上下文（例如，“03/04/05” 可能是日期也可能是版本号）。
特定领域的俚语或新造的缩写 需要手动更新词典；该库不会自动学习新模式。
音译规则是 手工制作 的，可能无法捕捉新出现外来词的所有语音细微差别。
作者建议通过 轻量统计消歧（例如小型 CRF 模型）扩展框架，并探索 跨语言迁移 到其他低资源的声调语言，如泰语或缅甸语。

VietNormalizer 表明，经过精心设计、无依赖的基于规则的方法能够满足现代越南语 TTS 与 NLP 应用对实时性的高要求，为开发者提供了一种实用工具，弥合原始用户文本与高质量语言处理之间的鸿沟。

作者

Hung Vu Nguyen
Loan Do
Thanh Ngoc Nguyen
Ushik Shrestha Khwakhali
Thanh Pham
Vinh Do
Charlotte Nguyen
Hien Nguyen

论文信息

arXiv ID: 2603.04145v1
分类: cs.CL, cs.NE
出版时间: 2026年3月4日
PDF: 下载 PDF

[Paper] VietNormalizer：一个开源、无依赖的 Python 库，用于 TTS 和 NLP 应用中的越南语文本规范化

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

[Paper] Pointer-CAD：通过基于指针的边缘与面选择统一 B-Rep 与命令序列

[Paper] 没有世界模型的世界属性：从静态词向量的共现统计中恢复空间和时间结构

[Paper] $V_1$: 统一 Generation 与 Self-Verification 用于 Parallel Reasoners