[Paper] 面向尼泊尔语 LLM:使用尼泊尔 BPE 分词器的高效 GPT 训练
发布: (2025年12月17日 GMT+8 00:53)
6 min read
原文: arXiv
Source: arXiv - 2512.14585v1
Overview
一个新的研究项目通过构建一种 GPT 风格的生成模型来解决长期缺乏高质量尼泊尔语模型的问题,该模型能够生成流畅的尼泊尔语文本。通过结合仅针对尼泊尔语的自定义 BPE 分词器、来自 GPT‑3 的现代训练技巧以及内存高效的 FlashAttention,作者展示了即使是相对适中的模型规模,也已经能够生成连贯的新闻风格尼泊尔语句子。
关键贡献
- 专用尼泊尔语 BPE 分词器(16 k 词表),仅在尼泊尔语语料上训练,相比多语言分词器产生更一致的子词切分。
- 基于 GPT‑2 的架构,使用受 GPT‑3 启发的训练方案进行微调(放大批量大小、余弦学习率衰减、预热以及架构微调)。
- 高效训练流水线,采用 FlashAttention 将 GPU 显存使用降低约 30 %,同时保持训练稳定。
- 大规模尼泊尔语预训练数据:10.75 GB 清洗后的 NepBERTa 语料 + 网络爬取的尼泊尔新闻文章(≈12 GB 总计)。
- 实验结果:仅经过两个 epoch,模型在保留的尼泊尔语文本上达到训练损失 3.168、验证损失 3.082,困惑度为 21.80。
方法论
- 数据收集与清洗 – 作者将公开可得的 NepBERTa 数据集与新抓取的新闻语料库合并,然后进行语言特定的清洗(去重、脚本标准化、去除非天城文字符)。
- 分词器设计 – 使用合并后的语料库,训练了一个词表大小为 16 k 的 Byte‑Pair Encoding 分词器。由于只面向尼泊尔语,常见词素和黏着后缀能够比多语言分词器更可靠地被捕获。
- 模型架构 – 采用标准的 GPT‑2 Transformer(12 层,768 隐藏单元,12 个注意力头)。小幅改进包括层归一化的位置以及稍大的前馈网络维度,以更好地处理尼泊尔语丰富的形态学特征。
- 训练技巧
- 学习率调度:线性预热(10 k 步)→ 余弦衰减。
- 批量扩展:梯度累积以模拟大批量训练,同时不超出 GPU 内存限制。
- FlashAttention:一种以内存友好方式计算注意力的内核,使同一模型能够在 24 GB GPU 上进行训练。
- 训练方案 – 模型在约 12 GB 数据集上进行两轮完整训练(epoch),使用 8 × A100 GPU 集群。
结果与发现
| Metric | Value |
|---|---|
| Training loss | 3.168 |
| Validation loss | 3.082 |
| Perplexity (validation) | 21.80 |
| Sample output | “根据加德满都的主要新闻,政府宣布了新的预算计划…”(一个流畅的新闻风格句子) |
- Low perplexity 表明模型对尼泊尔语 token 的预测信心与早期 GPT‑2 在英语上的表现相当。
- Qualitative inspection 显示模型遵循尼泊尔语语法,正确处理后置词,并产生适当的敬语——这些是之前仅编码器模型所难以做到的方面。
- Training efficiency:FlashAttention 将每步内存降低约 30 %,相较于普通注意力将墙钟时间缩短约 15 %。
实际意义
- 内容生成:媒体机构可以在尼泊尔语中原型化自动化新闻简报、摘要或社交媒体帖子,而无需使用英‑尼翻译流水线。
- 对话代理:为尼泊尔构建的聊天机器人和语音助理现在可以依赖生成式骨干,产生自然流畅的回复,提升用户体验。
- 低资源微调:因为基础模型已经捕获了尼泊尔语形态学特征,下游任务(摘要、问答)可以用远少于多语言大模型的标注示例进行微调。
- 开源生态系统:分词器和训练脚本足够轻量,可在单个高端 GPU 上运行,鼓励社区贡献和特定领域的扩展(例如法律或医学尼泊尔语文本)。
限制与未来工作
- 规模:模型仍是 GPT‑2 大小的网络;更大的架构可以进一步降低困惑度并提升长篇连贯性。
- 数据多样性:训练数据主要是新闻文本;其他领域(文学、非正式社交媒体)代表性不足,可能限制风格迁移。
- 评估广度:论文报告了损失和困惑度,但缺乏针对尼泊尔语事实性、偏见或有害性的人工评分基准。
- 作者提出的未来方向包括:扩展到 GPT‑3 级别的参数规模,加入多语言代码切换数据(尼泊尔常见),以及发布尼泊尔生成任务的基准套件。
作者
- Adarsha Shrestha
- Basanta Pokharel
- Binit Shrestha
- Smriti Adhikari
- Dinesh Gothe
论文信息
- arXiv ID: 2512.14585v1
- 分类: cs.CL, cs.AI
- 发表时间: 2025年12月16日
- PDF: 下载 PDF