[Paper] 神经机器翻译中的高效持续学习:低秩适配方法

发布: (2025年12月11日 GMT+8 02:37)
8 min read
原文: arXiv

Source: arXiv - 2512.09910v1

概览

神经机器翻译(NMT)的持续学习传统上面临两个痛点:灾难性遗忘(模型在学习新任务时会失去对早期任务的性能)以及全模型重新训练的计算开销。论文 Efficient Continual Learning in Neural Machine Translation: A Low‑Rank Adaptation Approach 提出了基于 低秩适配 (LoRA) 的轻量化、即插即用方案,在保持模型体积极小的同时,仍能匹配全参数微调的质量。文中还引入了一种梯度感知正则化器来保护已有知识,并提出了“无门控专家混合”,让用户能够实时混合领域/风格适配器。

关键贡献

  • 基于 LoRA 的 NMT 微调 – 证明仅适配低秩矩阵即可在使用 < 5 % 可训练参数的情况下,获得与全参数更新相当的翻译质量。
  • 交互式线性组合 LoRA 模块 – 提出一种校准的专家混合机制,允许开发者或终端用户实时混合多个领域/风格适配器,无需门控网络或额外再训练。
  • 梯度加权的低秩更新正则化 – 引入一种新正则项,根据历史梯度幅度对 LoRA 矩阵的变化进行惩罚,有效缓解灾难性遗忘。
  • 大量实证验证 – 在新语言对、领域转移(如医学、法律、对话)以及持续学习场景下的实验表明,该方法能够在内存开销极小的情况下扩展到数十个任务。
  • 开源实现 – 作者发布了代码和预训练的 LoRA 适配器,便于直接接入主流基于 Transformer 的 NMT 框架(如 Fairseq、OpenNMT、Hugging Face Transformers)。

方法论

1. 低秩分解 (LoRA)

  • 与其更新 Transformer 中的每个权重矩阵 W,作者将更新分解为 ΔW = A·B,其中 A ∈ ℝ^{d×r}B ∈ ℝ^{r×d},秩 r 较小(通常 4–16)。
  • 训练期间仅学习 AB;原始 W 保持冻结,推理速度不受影响。

2. 适配器库与线性混合

  • 对每个新语言或新领域训练一个独立的 LoRA 适配器(各自的 AB)。
  • 推理时计算适配器的 加权和

[ \Delta W_{\text{mix}} = \sum_{k} \alpha_k (A_k B_k) ]

其中系数 α_k 由用户控制或通过小验证集自动校准(例如)。无需门控网络,混合方式 无门控,可即时调节。

3. 梯度加权正则化

  • 为保护已学任务,损失函数加入项:

[ \mathcal{L}{\text{reg}} = \sum{k} \lambda_k | G^{\text{hist}}_k \odot (A_k B_k) |_F^2 ]

其中 G^{hist}_k 记录适配器 k 最初训练时观察到的梯度幅度。历史梯度大 → 惩罚更强,抑制对重要低秩方向的剧烈改变。

4. 训练流程

  1. 从强大的多语言 NMT 基础模型出发(如 mBART 或 Transformer‑big)。
  2. 对每个新任务:训练 LoRA 适配器若干 epoch(通常 < 2 % 原始训练步数)。
  3. 可选地在小验证集上微调混合系数 α,以适配目标领域/风格。

结果与发现

场景基线(全微调)仅 LoRALoRA + 正则与全模型 BLEU 差异
新语言(西班牙语→德语)31.230.931.0–0.2
领域转移(新闻 → 医学)28.528.228.4–0.1
持续学习 10 任务序列27.8 (最终)27.127.7–0.1
参数开销100 %3.8 %4.1 %
推理延迟1×(无额外运算)
  • 性能持平:LoRA 适配器在所有测试语言和领域上均在 0.2 BLEU 以内接近全参数微调。
  • 内存高效:新增适配器仅占几 MB,支持在设备或边缘部署数十个领域专家。
  • 灾难性遗忘缓解:梯度加权正则化将早期任务的 BLEU 下降从约 1.5(纯 LoRA)降低至 < 0.2,经过 10 个新任务学习后。
  • 实时风格控制:用户可通过简单滑块混合“正式”与“口语”适配器,瞬间切换翻译风格且无延迟惩罚。

实际意义

  • 快速上线新语言/领域 – 企业可通过训练一个体积极小的 LoRA 适配器(在单 GPU 上数小时)而非重新训练整个 NMT 系统(需数天/数周)来进入新市场。
  • 边缘与移动翻译 – 由于基础模型保持冻结且适配器极小,设备只需存储一个多语言骨干模型,按需下载所需适配器。
  • 交互式翻译服务 – SaaS 平台可提供 UI 控件(如“医学语气”“法律正式度”),实时调节 α,在不增加服务器推理次数的情况下提供个性化输出。
  • 持续改进流水线 – 数据团队可将增量更新(新领域数据、用户反馈)以独立适配器的形式推送,安全叠加而不危及已有客户的表现。
  • 成本节约 – 更低的 GPU 内存占用和更少的训练 epoch 转化为云计算费用的下降,尤其是针对拥有上百语言对的大型多语言模型。

局限性与未来工作

  • 秩选择敏感性 – 低秩维度 r 仍需经验调优;过低会损害质量,过高则削弱参数效率优势。
  • 适配器爆炸 – 虽然单个适配器很小,但管理数十甚至上百个适配器可能变得繁琐;论文建议未来研究 适配器剪枝层次组合
  • 正则项超参数 – 梯度加权惩罚系数 λ 需要在验证集上搜索;自动化该过程可提升易用性。
  • 对极低资源语言的评估 – 实验主要聚焦中等资源语言对;在平行句对 < 10k 的语言上验证 LoRA 的数据效率仍是挑战。
  • 更广泛的架构兼容性 – 本研究侧重标准 Transformer NMT;将该方法迁移到新兴架构(如检索增强模型或基于 LLM 的翻译器)仍是开放方向。

作者

  • Salvador Carrión
  • Francisco Casacuberta

论文信息

  • arXiv ID: 2512.09910v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »