[Paper] 流畅对齐与不流畅评判者:低资源语言的后训练

发布: (2025年12月10日 GMT+8 00:31)
7 min read
原文: arXiv

Source: arXiv - 2512.08777v1

概览

本文提出了一种轻量级的 后训练 技术,使得低资源语言的语言模型在使用 不流畅 的奖励模型进行对齐时仍能保持流利。作者通过绕过昂贵的母语使用者指令数据的需求,展示了一种实用的方法来改进挪威语 Bokmål 模型——以及其他代表性不足的语言——同时保持自然的输出。

主要贡献

  • 流利优先后训练:一种新颖的基于策略的对齐方法,即使在噪声(不流畅)奖励信号下也能保持流利。
  • 零指令数据需求:该方法在目标语言中不需要任何人工编写的指令微调数据。
  • 实证比较:与两种强基线——机器翻译数据的监督微调和多语言微调——进行基准测试,结果显示基于策略的方法在流利度上始终领先。
  • 以人为本的评估:母语使用者的流利度判断验证了模型输出的自然感,而不仅仅是统计上的流利。
  • 资源高效的流水线:该方法利用现有的多语言模型和少量合成数据,使得缺乏大规模语料的语言也能实现可行的改进。

方法论

  1. 基础模型 – 从已经对目标语言有一定了解的多语言语言模型(例如 mT5 或基于 LLaMA 的模型)开始。
  2. 奖励模型 (RM) – 在以英语为中心的数据上训练一个 偏好 奖励模型,其中“好”的响应在直接转移到目标语言时往往 不流畅(例如字面翻译)。
  3. 基于策略的后训练 – 与其直接使用奖励模型的分数(这会把模型推向相同的不流畅),作者在目标语言中生成 候选响应,用奖励模型对其打分,然后仅对 流畅 的响应使用类似策略梯度的方式进行 强化。此循环迫使模型在满足奖励的同时发现流畅的替代方案。
  4. 对比基线
    • 监督微调:在机器翻译的指令数据上进行微调。
    • 多语言微调:在多种语言上使用相同数据进行联合微调。

关键的创新点在于 基于策略 步骤:模型从自己的生成中学习,而不是从一个可能噪声的静态数据集学习。

结果与发现

方法流利度(母语使用者评分)偏好对齐得分
监督微调(机器翻译)★★☆☆☆中等
多语言微调★★☆☆☆中等
基于策略的后训练(本文提出)★★★★☆
  • 所提出的方法在流利度上 显著优于 两个基线,且该评价由挪威母语使用者完成。
  • 偏好对齐(即满足奖励模型)仍保持强劲,表明模型在获得流利性的同时并未牺牲预期行为。
  • 消融实验表明,去除基于策略的循环会使流利度回落到基线水平,凸显其必要性。

实际意义

  • 快速本地化:企业可以在无需大规模母语数据的情况下,将现有多语言模型快速适配到新市场(如斯堪的纳维亚、非洲或南亚语言)。
  • 成本效益的 AI:消除了昂贵的人类标注流水线的需求;合成数据加上基于策略的学习即可获得可用且流利的助手。
  • 更佳用户体验:在用户语言中听起来自然的聊天机器人、摘要工具或代码助手能够提升采纳率和信任度。
  • 开源社区推动:该技术可以打包成即插即用的后训练脚本,使爱好者和小型公司也能提升语言覆盖率。
  • 合规与安全:在对齐奖励模型的同时保持流利,可避免产生“破碎”或生硬的输出,从而降低被误解为低质量或有偏见的风险。

局限性与未来工作

  • 语言范围:研究聚焦于挪威 Bokmål;对形态或文字体系差异巨大的语言(如阿拉伯语、印地语)可能会有不同的效果。
  • 奖励模型质量:该方法仍依赖可能带有英语中心偏见的奖励模型;提升多语言奖励模型仍是一个待解挑战。
  • 人工评估的可扩展性:母语使用者的流利度评估成本高昂;需要进一步验证自动流利度代理的有效性。
  • 未来方向:作者建议将流水线扩展到真正的低资源语言(即使预训练数据极少),尝试更大的基础模型,并引入能够理解文化细微差别的多语言奖励模型。

作者

  • David Samuel
  • Lilja Øvrelid
  • Erik Velldal
  • Andrey Kutuzov

论文信息

  • arXiv ID: 2512.08777v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »