[Paper] 将大型语言模型适配到低资源藏语：两阶段持续与监督微调研究

发布: 2个月前 (2025年12月4日 GMT+8 01:06)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03976v1

Overview

本文解决了许多开发者面临的实际问题：如何让强大的大型语言模型（LLM）在文本极少的语言——藏语——上表现良好。通过两步微调开源的 Qwen2.5‑3B 模型，作者展示了可以显著提升模型的整体语言理解能力（降低困惑度）以及从中文到藏语的翻译能力。

Two‑stage adaptation pipeline – 首先在原始藏文语料上进行 Continual Pre‑training (CPT)，随后在翻译和下游任务上进行 Supervised Fine‑Tuning (SFT)。
Quantitative baseline for Tibetan – 首次系统性评估藏文 LLM 适配动态，涵盖困惑度以及翻译指标（BLEU、chrF）。
Layer‑wise analysis at scale – 对更大的 Qwen‑3‑4B 模型的 435 层进行检查，揭示知识存储位置（嵌入层和输出头）以及任务特定的变化如何在中后期 MLP 层中传播。
Open, reproducible framework – 所有数据预处理脚本、训练配置和评估代码均已开源，帮助其他团队复现该工作流，以适配任何低资源语言。

数据收集 – 作者从网络爬取、宗教经文和社区论坛中收集了约 1.2 GB 的藏文文本，然后使用支持藏文的分词器进行清洗和分词。
持续预训练 (CPT) – 基础 Qwen2.5‑3B 模型在仅含藏文语料的语料库上继续进行语言模型训练。此步骤构建了“藏文语义流形”，而不会覆盖模型中已有的多语言知识。
监督微调 (SFT) – 使用并行的中‑藏句对数据集（约 30 k 条）以及少量藏文分类/问答任务，教会模型在特定应用中生成有用的输出。
评估 – 在留出的藏文测试集上计算困惑度，以衡量通用语言建模能力；使用 BLEU 和 chrF 分数评估翻译质量。为了获得更深入的洞察，作者在一个拥有 40 亿参数的兄弟模型的每一层上进行激活探测。

该流水线刻意保持简洁：不做架构改动，仅通过精心的数据策划和分阶段训练，使其能够轻松配合现有开源工具（例如 Hugging Face Transformers、DeepSpeed）。

指标	基线 (Qwen2.5‑3B)	CPT 后	CPT + SFT 后
Perplexity (Tibetan)	2.98	1.54	1.48
BLEU (Zh→Ti)	0.046	0.172	0.261
chrF (Zh→Ti)	2.2	4.8	6.6

Perplexity 降低约 48 %，表明模型现在对藏语句法和形态学的“理解”大幅提升。
翻译质量提升超过三倍，经过完整的两阶段过程后，从几乎随机的水平提升到可用于草稿翻译的水平。
层分析显示，CPT 主要重塑嵌入矩阵和最终的语言模型头部，而 SFT 在中间的 MLP 层引入细微变化，使模型专注于翻译任务。值得注意的是，较早的层保持相对稳定，表明多语言基础得以保留。

快速本地化 – 想要在聊天机器人、搜索或内容审核流水线中加入藏语（或任何低资源语言）的公司，可以遵循这种两阶段的配方，而无需从头训练模型。
成本效益的微调 – CPT 可以在单个 GPU 上运行几天，使用适度的数据；SFT 只需要几千条平行句子，许多非政府组织或社区团体都能收集到。
可迁移的洞见 – 层级分析结果为开发者提供了在何处“注入”语言特定知识（嵌入）以及在何处聚焦任务特定头部的线索，为未来的参数高效适配方法（如 LoRA 或 adapters）提供参考。
开源生态系统的提升 – 通过发布脚本和检查点，作者降低了开源大语言模型服务于弱势语言的门槛，契合负责任的 AI 与数字包容目标。

数据规模与多样性 – 即使拥有 1.2 GB 的藏文文本，语料库仍然狭窄（主要是宗教和正式领域），这可能限制在口语或特定领域使用场景中的表现。
评估范围 – 本研究聚焦于中译藏翻译；更广泛的下游任务（例如摘要、问答）尚未进行测试。
向更大模型的可扩展性 – 虽然已经尝试了 40 亿参数的模型，但实际微调实验仅限于 30 亿参数的 Qwen2.5。探索相同收益是否适用于 100 亿或 700 亿参数的模型仍是未解之谜。
跨语言漂移 – 作者指出在进行 CPT 后其他语言的困惑度略有上升，暗示了专精与多语言保持之间的权衡，未来工作可以通过多任务持续训练来加以解决。

结论：本文提供了一条务实且可复现的路线图，用于将大语言模型适配到低资源语言——将理论挑战转化为一系列具体步骤，开发者可以立即开始使用。