[Paper] 将大型语言模型适配到低资源藏语:两阶段持续与监督微调研究
发布: (2025年12月4日 GMT+8 01:06)
7 min read
原文: arXiv
Source: arXiv - 2512.03976v1
Overview
本文解决了许多开发者面临的实际问题:如何让强大的大型语言模型(LLM)在文本极少的语言——藏语——上表现良好。通过两步微调开源的 Qwen2.5‑3B 模型,作者展示了可以显著提升模型的整体语言理解能力(降低困惑度)以及从中文到藏语的翻译能力。
关键贡献
- Two‑stage adaptation pipeline – 首先在原始藏文语料上进行 Continual Pre‑training (CPT),随后在翻译和下游任务上进行 Supervised Fine‑Tuning (SFT)。
- Quantitative baseline for Tibetan – 首次系统性评估藏文 LLM 适配动态,涵盖困惑度以及翻译指标(BLEU、chrF)。
- Layer‑wise analysis at scale – 对更大的 Qwen‑3‑4B 模型的 435 层进行检查,揭示知识存储位置(嵌入层和输出头)以及任务特定的变化如何在中后期 MLP 层中传播。
- Open, reproducible framework – 所有数据预处理脚本、训练配置和评估代码均已开源,帮助其他团队复现该工作流,以适配任何低资源语言。
方法论
- 数据收集 – 作者从网络爬取、宗教经文和社区论坛中收集了约 1.2 GB 的藏文文本,然后使用支持藏文的分词器进行清洗和分词。
- 持续预训练 (CPT) – 基础 Qwen2.5‑3B 模型在仅含藏文语料的语料库上继续进行语言模型训练。此步骤构建了“藏文语义流形”,而不会覆盖模型中已有的多语言知识。
- 监督微调 (SFT) – 使用并行的中‑藏句对数据集(约 30 k 条)以及少量藏文分类/问答任务,教会模型在特定应用中生成有用的输出。
- 评估 – 在留出的藏文测试集上计算困惑度,以衡量通用语言建模能力;使用 BLEU 和 chrF 分数评估翻译质量。为了获得更深入的洞察,作者在一个拥有 40 亿参数的兄弟模型的每一层上进行激活探测。
该流水线刻意保持简洁:不做架构改动,仅通过精心的数据策划和分阶段训练,使其能够轻松配合现有开源工具(例如 Hugging Face Transformers、DeepSpeed)。
结果与发现
| 指标 | 基线 (Qwen2.5‑3B) | CPT 后 | CPT + SFT 后 |
|---|---|---|---|
| Perplexity (Tibetan) | 2.98 | 1.54 | 1.48 |
| BLEU (Zh→Ti) | 0.046 | 0.172 | 0.261 |
| chrF (Zh→Ti) | 2.2 | 4.8 | 6.6 |
- Perplexity 降低约 48 %,表明模型现在对藏语句法和形态学的“理解”大幅提升。
- 翻译质量提升超过三倍,经过完整的两阶段过程后,从几乎随机的水平提升到可用于草稿翻译的水平。
- 层分析显示,CPT 主要重塑嵌入矩阵和最终的语言模型头部,而 SFT 在中间的 MLP 层引入细微变化,使模型专注于翻译任务。值得注意的是,较早的层保持相对稳定,表明多语言基础得以保留。
实际影响
- 快速本地化 – 想要在聊天机器人、搜索或内容审核流水线中加入藏语(或任何低资源语言)的公司,可以遵循这种两阶段的配方,而无需从头训练模型。
- 成本效益的微调 – CPT 可以在单个 GPU 上运行几天,使用适度的数据;SFT 只需要几千条平行句子,许多非政府组织或社区团体都能收集到。
- 可迁移的洞见 – 层级分析结果为开发者提供了在何处“注入”语言特定知识(嵌入)以及在何处聚焦任务特定头部的线索,为未来的参数高效适配方法(如 LoRA 或 adapters)提供参考。
- 开源生态系统的提升 – 通过发布脚本和检查点,作者降低了开源大语言模型服务于弱势语言的门槛,契合负责任的 AI 与数字包容目标。
限制与未来工作
- 数据规模与多样性 – 即使拥有 1.2 GB 的藏文文本,语料库仍然狭窄(主要是宗教和正式领域),这可能限制在口语或特定领域使用场景中的表现。
- 评估范围 – 本研究聚焦于中译藏翻译;更广泛的下游任务(例如摘要、问答)尚未进行测试。
- 向更大模型的可扩展性 – 虽然已经尝试了 40 亿参数的模型,但实际微调实验仅限于 30 亿参数的 Qwen2.5。探索相同收益是否适用于 100 亿或 700 亿参数的模型仍是未解之谜。
- 跨语言漂移 – 作者指出在进行 CPT 后其他语言的困惑度略有上升,暗示了专精与多语言保持之间的权衡,未来工作可以通过多任务持续训练来加以解决。
结论:本文提供了一条务实且可复现的路线图,用于将大语言模型适配到低资源语言——将理论挑战转化为一系列具体步骤,开发者可以立即开始使用。
作者
- Lifeng Chen
- Ryan Lai
- Tianming Liu
论文信息
- arXiv ID: 2512.03976v1
- 类别: cs.CL
- 出版时间: 2025年12月3日
- PDF: 下载 PDF