[Paper] 神经机器翻译中的高效持续学习：低秩适配方法

发布: 2个月前 (2025年12月11日 GMT+8 02:37)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.09910v1

概览

神经机器翻译（NMT）的持续学习传统上面临两个痛点：灾难性遗忘（模型在学习新任务时会失去对早期任务的性能）以及全模型重新训练的计算开销。论文 Efficient Continual Learning in Neural Machine Translation: A Low‑Rank Adaptation Approach 提出了基于 低秩适配 (LoRA) 的轻量化、即插即用方案，在保持模型体积极小的同时，仍能匹配全参数微调的质量。文中还引入了一种梯度感知正则化器来保护已有知识，并提出了“无门控专家混合”，让用户能够实时混合领域/风格适配器。

关键贡献

基于 LoRA 的 NMT 微调 – 证明仅适配低秩矩阵即可在使用 < 5 % 可训练参数的情况下，获得与全参数更新相当的翻译质量。
交互式线性组合 LoRA 模块 – 提出一种校准的专家混合机制，允许开发者或终端用户实时混合多个领域/风格适配器，无需门控网络或额外再训练。
梯度加权的低秩更新正则化 – 引入一种新正则项，根据历史梯度幅度对 LoRA 矩阵的变化进行惩罚，有效缓解灾难性遗忘。
大量实证验证 – 在新语言对、领域转移（如医学、法律、对话）以及持续学习场景下的实验表明，该方法能够在内存开销极小的情况下扩展到数十个任务。
开源实现 – 作者发布了代码和预训练的 LoRA 适配器，便于直接接入主流基于 Transformer 的 NMT 框架（如 Fairseq、OpenNMT、Hugging Face Transformers）。

方法论

1. 低秩分解 (LoRA)

与其更新 Transformer 中的每个权重矩阵 W，作者将更新分解为 ΔW = A·B，其中 A ∈ ℝ^{d×r}、B ∈ ℝ^{r×d}，秩 r 较小（通常 4–16）。
训练期间仅学习 A 和 B；原始 W 保持冻结，推理速度不受影响。

2. 适配器库与线性混合

对每个新语言或新领域训练一个独立的 LoRA 适配器（各自的 A、B）。
推理时计算适配器的 加权和：

[ \Delta W_{\text{mix}} = \sum_{k} \alpha_k (A_k B_k) ]

其中系数 α_k 由用户控制或通过小验证集自动校准（例如）。无需门控网络，混合方式 无门控，可即时调节。

3. 梯度加权正则化

为保护已学任务，损失函数加入项：

[ \mathcal{L}{\text{reg}} = \sum{k} \lambda_k | G^{\text{hist}}_k \odot (A_k B_k) |_F^2 ]

其中 G^{hist}_k 记录适配器 k 最初训练时观察到的梯度幅度。历史梯度大 → 惩罚更强，抑制对重要低秩方向的剧烈改变。

4. 训练流程

从强大的多语言 NMT 基础模型出发（如 mBART 或 Transformer‑big）。
对每个新任务：训练 LoRA 适配器若干 epoch（通常 < 2 % 原始训练步数）。
可选地在小验证集上微调混合系数 α，以适配目标领域/风格。

结果与发现

场景	基线（全微调）	仅 LoRA	LoRA + 正则	与全模型 BLEU 差异
新语言（西班牙语→德语）	31.2	30.9	31.0	–0.2
领域转移（新闻 → 医学）	28.5	28.2	28.4	–0.1
持续学习 10 任务序列	27.8 (最终)	27.1	27.7	–0.1
参数开销	100 %	3.8 %	4.1 %	—
推理延迟	1×	1×（无额外运算）	1×	—

性能持平：LoRA 适配器在所有测试语言和领域上均在 0.2 BLEU 以内接近全参数微调。
内存高效：新增适配器仅占几 MB，支持在设备或边缘部署数十个领域专家。
灾难性遗忘缓解：梯度加权正则化将早期任务的 BLEU 下降从约 1.5（纯 LoRA）降低至 < 0.2，经过 10 个新任务学习后。
实时风格控制：用户可通过简单滑块混合“正式”与“口语”适配器，瞬间切换翻译风格且无延迟惩罚。

实际意义

快速上线新语言/领域 – 企业可通过训练一个体积极小的 LoRA 适配器（在单 GPU 上数小时）而非重新训练整个 NMT 系统（需数天/数周）来进入新市场。
边缘与移动翻译 – 由于基础模型保持冻结且适配器极小，设备只需存储一个多语言骨干模型，按需下载所需适配器。
交互式翻译服务 – SaaS 平台可提供 UI 控件（如“医学语气”“法律正式度”），实时调节 α，在不增加服务器推理次数的情况下提供个性化输出。
持续改进流水线 – 数据团队可将增量更新（新领域数据、用户反馈）以独立适配器的形式推送，安全叠加而不危及已有客户的表现。
成本节约 – 更低的 GPU 内存占用和更少的训练 epoch 转化为云计算费用的下降，尤其是针对拥有上百语言对的大型多语言模型。

局限性与未来工作

秩选择敏感性 – 低秩维度 r 仍需经验调优；过低会损害质量，过高则削弱参数效率优势。
适配器爆炸 – 虽然单个适配器很小，但管理数十甚至上百个适配器可能变得繁琐；论文建议未来研究 适配器剪枝 或 层次组合。
正则项超参数 – 梯度加权惩罚系数 λ 需要在验证集上搜索；自动化该过程可提升易用性。
对极低资源语言的评估 – 实验主要聚焦中等资源语言对；在平行句对 < 10k 的语言上验证 LoRA 的数据效率仍是挑战。
更广泛的架构兼容性 – 本研究侧重标准 Transformer NMT；将该方法迁移到新兴架构（如检索增强模型或基于 LLM 的翻译器）仍是开放方向。

作者

Salvador Carrión
Francisco Casacuberta

论文信息

arXiv ID: 2512.09910v1
分类: cs.CL, cs.AI
发布日期: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] 神经机器翻译中的高效持续学习：低秩适配方法

概览

关键贡献

方法论

1. 低秩分解 (LoRA)

2. 适配器库与线性混合

3. 梯度加权正则化

4. 训练流程

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性