[Paper] 面向尼泊尔语 LLM：使用尼泊尔 BPE 分词器的高效 GPT 训练

发布: 1个月前 (2025年12月17日 GMT+8 00:53)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.14585v1

Overview

一个新的研究项目通过构建一种 GPT 风格的生成模型来解决长期缺乏高质量尼泊尔语模型的问题，该模型能够生成流畅的尼泊尔语文本。通过结合仅针对尼泊尔语的自定义 BPE 分词器、来自 GPT‑3 的现代训练技巧以及内存高效的 FlashAttention，作者展示了即使是相对适中的模型规模，也已经能够生成连贯的新闻风格尼泊尔语句子。

关键贡献

专用尼泊尔语 BPE 分词器（16 k 词表），仅在尼泊尔语语料上训练，相比多语言分词器产生更一致的子词切分。
基于 GPT‑2 的架构，使用受 GPT‑3 启发的训练方案进行微调（放大批量大小、余弦学习率衰减、预热以及架构微调）。
高效训练流水线，采用 FlashAttention 将 GPU 显存使用降低约 30 %，同时保持训练稳定。
大规模尼泊尔语预训练数据：10.75 GB 清洗后的 NepBERTa 语料 + 网络爬取的尼泊尔新闻文章（≈12 GB 总计）。
实验结果：仅经过两个 epoch，模型在保留的尼泊尔语文本上达到训练损失 3.168、验证损失 3.082，困惑度为 21.80。

方法论

数据收集与清洗 – 作者将公开可得的 NepBERTa 数据集与新抓取的新闻语料库合并，然后进行语言特定的清洗（去重、脚本标准化、去除非天城文字符）。
分词器设计 – 使用合并后的语料库，训练了一个词表大小为 16 k 的 Byte‑Pair Encoding 分词器。由于只面向尼泊尔语，常见词素和黏着后缀能够比多语言分词器更可靠地被捕获。
模型架构 – 采用标准的 GPT‑2 Transformer（12 层，768 隐藏单元，12 个注意力头）。小幅改进包括层归一化的位置以及稍大的前馈网络维度，以更好地处理尼泊尔语丰富的形态学特征。
训练技巧
- 学习率调度：线性预热（10 k 步）→ 余弦衰减。
- 批量扩展：梯度累积以模拟大批量训练，同时不超出 GPU 内存限制。
- FlashAttention：一种以内存友好方式计算注意力的内核，使同一模型能够在 24 GB GPU 上进行训练。
训练方案 – 模型在约 12 GB 数据集上进行两轮完整训练（epoch），使用 8 × A100 GPU 集群。

结果与发现

Metric	Value
Training loss	3.168
Validation loss	3.082
Perplexity (validation)	21.80
Sample output	“根据加德满都的主要新闻，政府宣布了新的预算计划…”（一个流畅的新闻风格句子）

Low perplexity 表明模型对尼泊尔语 token 的预测信心与早期 GPT‑2 在英语上的表现相当。
Qualitative inspection 显示模型遵循尼泊尔语语法，正确处理后置词，并产生适当的敬语——这些是之前仅编码器模型所难以做到的方面。
Training efficiency：FlashAttention 将每步内存降低约 30 %，相较于普通注意力将墙钟时间缩短约 15 %。

实际意义

内容生成：媒体机构可以在尼泊尔语中原型化自动化新闻简报、摘要或社交媒体帖子，而无需使用英‑尼翻译流水线。
对话代理：为尼泊尔构建的聊天机器人和语音助理现在可以依赖生成式骨干，产生自然流畅的回复，提升用户体验。
低资源微调：因为基础模型已经捕获了尼泊尔语形态学特征，下游任务（摘要、问答）可以用远少于多语言大模型的标注示例进行微调。
开源生态系统：分词器和训练脚本足够轻量，可在单个高端 GPU 上运行，鼓励社区贡献和特定领域的扩展（例如法律或医学尼泊尔语文本）。

限制与未来工作

规模：模型仍是 GPT‑2 大小的网络；更大的架构可以进一步降低困惑度并提升长篇连贯性。
数据多样性：训练数据主要是新闻文本；其他领域（文学、非正式社交媒体）代表性不足，可能限制风格迁移。
评估广度：论文报告了损失和困惑度，但缺乏针对尼泊尔语事实性、偏见或有害性的人工评分基准。
作者提出的未来方向包括：扩展到 GPT‑3 级别的参数规模，加入多语言代码切换数据（尼泊尔常见），以及发布尼泊尔生成任务的基准套件。

作者

Adarsha Shrestha
Basanta Pokharel
Binit Shrestha
Smriti Adhikari
Dinesh Gothe

论文信息

arXiv ID: 2512.14585v1
分类: cs.CL, cs.AI
发表时间: 2025年12月16日
PDF: 下载 PDF

[Paper] 面向尼泊尔语 LLM：使用尼泊尔 BPE 分词器的高效 GPT 训练

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别

[Paper] AncientBench：面向已发掘和已传承中文语料库的全面评估