[Paper] 将大型语言模型适配于低资源藏语:两阶段持续与监督微调研究

发布: (2025年12月4日 GMT+8 01:06)
7 min read
原文: arXiv

Source: arXiv - 2512.03976v1

概览

本文解决了许多开发者面临的实际问题:如何让强大的大语言模型(LLM)在文本极少的语言——藏语上表现良好。通过对开源的 Qwen2.5‑3B 模型进行两步微调,作者展示了可以显著提升模型的通用语言理解能力(降低困惑度)以及中译藏的翻译能力。

主要贡献

  • 两阶段适配流水线 – 首先在原始藏文语料上进行 持续预训练(Continual Pre‑training, CPT),随后在翻译和下游任务上进行 监督微调(Supervised Fine‑Tuning, SFT)
  • 藏语的量化基线 – 首次系统评估 LLM 在藏语上的适配动态,包含困惑度和翻译指标(BLEU、chrF)。
  • 大规模层级分析 – 对更大的 Qwen‑3‑4B 模型的 435 层进行检查,揭示知识存储位置(嵌入层和输出头)以及任务特定变化在中后期 MLP 层的传播方式。
  • 开放、可复现的框架 – 所有数据预处理脚本、训练配置和评估代码均已公开,方便其他团队在任意低资源语言上复现工作流。

方法论

  1. 数据收集 – 作者从网络爬取、宗教经文和社区论坛中收集约 1.2 GB 藏文文本,随后使用藏文感知的分词器进行清洗和分词。
  2. 持续预训练(CPT) – 基础的 Qwen2.5‑3B 模型仅在藏文语料上继续进行语言模型训练。此步骤在不覆盖模型已有多语言知识的前提下,构建了一个“藏语语义流形”。
  3. 监督微调(SFT) – 使用平行的中译藏句对(约 30 k 条)以及少量藏文分类/问答任务,教会模型在特定应用中生成有用输出。
  4. 评估 – 在保留的藏文测试集上计算困惑度以衡量通用语言建模能力;使用 BLEU 和 chrF 评估翻译质量。为获得更深层次洞察,作者还在更大的 40 亿参数兄弟模型的每一层进行激活探测。

该流水线刻意保持简洁:不改动模型结构,仅通过精心的数据策划和分阶段训练,实现了对现有开源工具(如 Hugging Face Transformers、DeepSpeed)的易用兼容。

结果与发现

指标基线 (Qwen2.5‑3B)CPT 后CPT + SFT 后
藏文困惑度 (Perplexity)2.981.541.48
BLEU(中→藏)0.0460.1720.261
chrF(中→藏)2.24.86.6
  • 困惑度下降约 48 %,表明模型对藏语句法和形态的理解显著提升。
  • 翻译质量提升超过三倍,从接近随机的水平提升到可用于草稿翻译的程度。
  • 层级分析显示,CPT 主要重塑嵌入矩阵和最终语言模型头,而 SFT 在中间的 MLP 层引入细微变化,使模型专注于翻译任务。值得注意的是,前层相对稳定,说明多语言基础被保留。

实际意义

  • 快速本地化 – 想要在聊天机器人、搜索或内容审核流水线中加入藏语(或任何低资源语言)的公司,可直接采用此两阶段配方,而无需从头训练模型。
  • 成本效益高的微调 – CPT 可在单 GPU 上运行数天,数据量适中;SFT 只需几千条平行句,对许多 NGO 或社区组织而言易于收集。
  • 可迁移的洞察 – 层级发现为开发者提供了在何处“注入”语言特定知识(嵌入层)以及在何处聚焦任务特定头的线索,为后续 LoRA、adapter 等参数高效适配方法提供参考。
  • 开源生态助推 – 通过公开脚本和检查点,作者降低了开源 LLM 为弱势语言服务的门槛,契合负责任 AI 与数字包容的目标。

局限性与未来工作

  • 数据规模与多样性 – 即使拥有 1.2 GB 藏文文本,语料仍偏向宗教和正式领域,可能限制在口语或特定行业场景下的表现。
  • 评估范围 – 本研究仅聚焦中译藏翻译,其他下游任务(如摘要、问答)尚未验证。
  • 向更大模型的可扩展性 – 虽然对 40 亿参数模型进行了探测,但实际微调实验仅限于 30 亿参数的 Qwen2.5。探索同样收益在 10 B、70 B 规模模型上的表现仍是开放问题。
  • 跨语言漂移 – 作者注意到 CPT 后其他语言的困惑度略有上升,暗示专精与多语言保持之间的权衡,未来可通过多任务持续训练加以缓解。

结论:本文提供了一条务实、可复现的路线图,用于将 LLM 适配到低资源语言——把理论挑战转化为开发者今天即可上手的具体步骤。

作者

  • Lifeng Chen
  • Ryan Lai
  • Tianming Liu

论文信息

  • arXiv ID: 2512.03976v1
  • 分类: cs.CL
  • 发布时间: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »