[Paper] 面向尼泊尔语 LLM:使用尼泊尔 BPE 分词器的高效 GPT 训练

发布: (2025年12月17日 GMT+8 00:53)
6 min read
原文: arXiv

Source: arXiv - 2512.14585v1

Overview

一个新的研究项目通过构建一种 GPT 风格的生成模型来解决长期缺乏高质量尼泊尔语模型的问题,该模型能够生成流畅的尼泊尔语文本。通过结合仅针对尼泊尔语的自定义 BPE 分词器、来自 GPT‑3 的现代训练技巧以及内存高效的 FlashAttention,作者展示了即使是相对适中的模型规模,也已经能够生成连贯的新闻风格尼泊尔语句子。

关键贡献

  • 专用尼泊尔语 BPE 分词器(16 k 词表),仅在尼泊尔语语料上训练,相比多语言分词器产生更一致的子词切分。
  • 基于 GPT‑2 的架构,使用受 GPT‑3 启发的训练方案进行微调(放大批量大小、余弦学习率衰减、预热以及架构微调)。
  • 高效训练流水线,采用 FlashAttention 将 GPU 显存使用降低约 30 %,同时保持训练稳定。
  • 大规模尼泊尔语预训练数据:10.75 GB 清洗后的 NepBERTa 语料 + 网络爬取的尼泊尔新闻文章(≈12 GB 总计)。
  • 实验结果:仅经过两个 epoch,模型在保留的尼泊尔语文本上达到训练损失 3.168、验证损失 3.082,困惑度为 21.80。

方法论

  1. 数据收集与清洗 – 作者将公开可得的 NepBERTa 数据集与新抓取的新闻语料库合并,然后进行语言特定的清洗(去重、脚本标准化、去除非天城文字符)。
  2. 分词器设计 – 使用合并后的语料库,训练了一个词表大小为 16 k 的 Byte‑Pair Encoding 分词器。由于只面向尼泊尔语,常见词素和黏着后缀能够比多语言分词器更可靠地被捕获。
  3. 模型架构 – 采用标准的 GPT‑2 Transformer(12 层,768 隐藏单元,12 个注意力头)。小幅改进包括层归一化的位置以及稍大的前馈网络维度,以更好地处理尼泊尔语丰富的形态学特征。
  4. 训练技巧
    • 学习率调度:线性预热(10 k 步)→ 余弦衰减。
    • 批量扩展:梯度累积以模拟大批量训练,同时不超出 GPU 内存限制。
    • FlashAttention:一种以内存友好方式计算注意力的内核,使同一模型能够在 24 GB GPU 上进行训练。
  5. 训练方案 – 模型在约 12 GB 数据集上进行两轮完整训练(epoch),使用 8 × A100 GPU 集群。

结果与发现

MetricValue
Training loss3.168
Validation loss3.082
Perplexity (validation)21.80
Sample output“根据加德满都的主要新闻,政府宣布了新的预算计划…”(一个流畅的新闻风格句子)
  • Low perplexity 表明模型对尼泊尔语 token 的预测信心与早期 GPT‑2 在英语上的表现相当。
  • Qualitative inspection 显示模型遵循尼泊尔语语法,正确处理后置词,并产生适当的敬语——这些是之前仅编码器模型所难以做到的方面。
  • Training efficiency:FlashAttention 将每步内存降低约 30 %,相较于普通注意力将墙钟时间缩短约 15 %。

实际意义

  • 内容生成:媒体机构可以在尼泊尔语中原型化自动化新闻简报、摘要或社交媒体帖子,而无需使用英‑尼翻译流水线。
  • 对话代理:为尼泊尔构建的聊天机器人和语音助理现在可以依赖生成式骨干,产生自然流畅的回复,提升用户体验。
  • 低资源微调:因为基础模型已经捕获了尼泊尔语形态学特征,下游任务(摘要、问答)可以用远少于多语言大模型的标注示例进行微调。
  • 开源生态系统:分词器和训练脚本足够轻量,可在单个高端 GPU 上运行,鼓励社区贡献和特定领域的扩展(例如法律或医学尼泊尔语文本)。

限制与未来工作

  • 规模:模型仍是 GPT‑2 大小的网络;更大的架构可以进一步降低困惑度并提升长篇连贯性。
  • 数据多样性:训练数据主要是新闻文本;其他领域(文学、非正式社交媒体)代表性不足,可能限制风格迁移。
  • 评估广度:论文报告了损失和困惑度,但缺乏针对尼泊尔语事实性、偏见或有害性的人工评分基准。
  • 作者提出的未来方向包括:扩展到 GPT‑3 级别的参数规模,加入多语言代码切换数据(尼泊尔常见),以及发布尼泊尔生成任务的基准套件。

作者

  • Adarsha Shrestha
  • Basanta Pokharel
  • Binit Shrestha
  • Smriti Adhikari
  • Dinesh Gothe

论文信息

  • arXiv ID: 2512.14585v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »