[Paper] 将大型语言模型适配到低资源藏语:两阶段持续与监督微调研究

发布: (2025年12月4日 GMT+8 01:06)
7 min read
原文: arXiv

Source: arXiv - 2512.03976v1

Overview

本文解决了许多开发者面临的实际问题:如何让强大的大型语言模型(LLM)在文本极少的语言——藏语——上表现良好。通过两步微调开源的 Qwen2.5‑3B 模型,作者展示了可以显著提升模型的整体语言理解能力(降低困惑度)以及从中文到藏语的翻译能力。

关键贡献

  • Two‑stage adaptation pipeline – 首先在原始藏文语料上进行 Continual Pre‑training (CPT),随后在翻译和下游任务上进行 Supervised Fine‑Tuning (SFT)
  • Quantitative baseline for Tibetan – 首次系统性评估藏文 LLM 适配动态,涵盖困惑度以及翻译指标(BLEU、chrF)。
  • Layer‑wise analysis at scale – 对更大的 Qwen‑3‑4B 模型的 435 层进行检查,揭示知识存储位置(嵌入层和输出头)以及任务特定的变化如何在中后期 MLP 层中传播。
  • Open, reproducible framework – 所有数据预处理脚本、训练配置和评估代码均已开源,帮助其他团队复现该工作流,以适配任何低资源语言。

方法论

  1. 数据收集 – 作者从网络爬取、宗教经文和社区论坛中收集了约 1.2 GB 的藏文文本,然后使用支持藏文的分词器进行清洗和分词。
  2. 持续预训练 (CPT) – 基础 Qwen2.5‑3B 模型在仅含藏文语料的语料库上继续进行语言模型训练。此步骤构建了“藏文语义流形”,而不会覆盖模型中已有的多语言知识。
  3. 监督微调 (SFT) – 使用并行的中‑藏句对数据集(约 30 k 条)以及少量藏文分类/问答任务,教会模型在特定应用中生成有用的输出。
  4. 评估 – 在留出的藏文测试集上计算困惑度,以衡量通用语言建模能力;使用 BLEU 和 chrF 分数评估翻译质量。为了获得更深入的洞察,作者在一个拥有 40 亿参数的兄弟模型的每一层上进行激活探测。

该流水线刻意保持简洁:不做架构改动,仅通过精心的数据策划和分阶段训练,使其能够轻松配合现有开源工具(例如 Hugging Face Transformers、DeepSpeed)。

结果与发现

指标基线 (Qwen2.5‑3B)CPT 后CPT + SFT 后
Perplexity (Tibetan)2.981.541.48
BLEU (Zh→Ti)0.0460.1720.261
chrF (Zh→Ti)2.24.86.6
  • Perplexity 降低约 48 %,表明模型现在对藏语句法和形态学的“理解”大幅提升。
  • 翻译质量提升超过三倍,经过完整的两阶段过程后,从几乎随机的水平提升到可用于草稿翻译的水平。
  • 层分析显示,CPT 主要重塑嵌入矩阵和最终的语言模型头部,而 SFT 在中间的 MLP 层引入细微变化,使模型专注于翻译任务。值得注意的是,较早的层保持相对稳定,表明多语言基础得以保留。

实际影响

  • 快速本地化 – 想要在聊天机器人、搜索或内容审核流水线中加入藏语(或任何低资源语言)的公司,可以遵循这种两阶段的配方,而无需从头训练模型。
  • 成本效益的微调 – CPT 可以在单个 GPU 上运行几天,使用适度的数据;SFT 只需要几千条平行句子,许多非政府组织或社区团体都能收集到。
  • 可迁移的洞见 – 层级分析结果为开发者提供了在何处“注入”语言特定知识(嵌入)以及在何处聚焦任务特定头部的线索,为未来的参数高效适配方法(如 LoRA 或 adapters)提供参考。
  • 开源生态系统的提升 – 通过发布脚本和检查点,作者降低了开源大语言模型服务于弱势语言的门槛,契合负责任的 AI 与数字包容目标。

限制与未来工作

  • 数据规模与多样性 – 即使拥有 1.2 GB 的藏文文本,语料库仍然狭窄(主要是宗教和正式领域),这可能限制在口语或特定领域使用场景中的表现。
  • 评估范围 – 本研究聚焦于中译藏翻译;更广泛的下游任务(例如摘要、问答)尚未进行测试。
  • 向更大模型的可扩展性 – 虽然已经尝试了 40 亿参数的模型,但实际微调实验仅限于 30 亿参数的 Qwen2.5。探索相同收益是否适用于 100 亿或 700 亿参数的模型仍是未解之谜。
  • 跨语言漂移 – 作者指出在进行 CPT 后其他语言的困惑度略有上升,暗示了专精与多语言保持之间的权衡,未来工作可以通过多任务持续训练来加以解决。

结论:本文提供了一条务实且可复现的路线图,用于将大语言模型适配到低资源语言——将理论挑战转化为一系列具体步骤,开发者可以立即开始使用。

作者

  • Lifeng Chen
  • Ryan Lai
  • Tianming Liu

论文信息

  • arXiv ID: 2512.03976v1
  • 类别: cs.CL
  • 出版时间: 2025年12月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »