[Paper] 流畅对齐与不流畅评判者：低资源语言的后训练

发布: 2个月前 (2025年12月10日 GMT+8 00:31)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08777v1

概览

本文提出了一种轻量级的 后训练 技术，使得低资源语言的语言模型在使用 不流畅 的奖励模型进行对齐时仍能保持流利。作者通过绕过昂贵的母语使用者指令数据的需求，展示了一种实用的方法来改进挪威语 Bokmål 模型——以及其他代表性不足的语言——同时保持自然的输出。

主要贡献

流利优先后训练：一种新颖的基于策略的对齐方法，即使在噪声（不流畅）奖励信号下也能保持流利。
零指令数据需求：该方法在目标语言中不需要任何人工编写的指令微调数据。
实证比较：与两种强基线——机器翻译数据的监督微调和多语言微调——进行基准测试，结果显示基于策略的方法在流利度上始终领先。
以人为本的评估：母语使用者的流利度判断验证了模型输出的自然感，而不仅仅是统计上的流利。
资源高效的流水线：该方法利用现有的多语言模型和少量合成数据，使得缺乏大规模语料的语言也能实现可行的改进。

方法论

基础模型 – 从已经对目标语言有一定了解的多语言语言模型（例如 mT5 或基于 LLaMA 的模型）开始。
奖励模型 (RM) – 在以英语为中心的数据上训练一个偏好奖励模型，其中“好”的响应在直接转移到目标语言时往往 不流畅（例如字面翻译）。
基于策略的后训练 – 与其直接使用奖励模型的分数（这会把模型推向相同的不流畅），作者在目标语言中生成 候选响应，用奖励模型对其打分，然后仅对流畅的响应使用类似策略梯度的方式进行强化。此循环迫使模型在满足奖励的同时发现流畅的替代方案。
对比基线
- 监督微调：在机器翻译的指令数据上进行微调。
- 多语言微调：在多种语言上使用相同数据进行联合微调。

关键的创新点在于 基于策略 步骤：模型从自己的生成中学习，而不是从一个可能噪声的静态数据集学习。

结果与发现

方法	流利度（母语使用者评分）	偏好对齐得分
监督微调（机器翻译）	★★☆☆☆	中等
多语言微调	★★☆☆☆	中等
基于策略的后训练（本文提出）	★★★★☆	高

所提出的方法在流利度上 显著优于 两个基线，且该评价由挪威母语使用者完成。
偏好对齐（即满足奖励模型）仍保持强劲，表明模型在获得流利性的同时并未牺牲预期行为。
消融实验表明，去除基于策略的循环会使流利度回落到基线水平，凸显其必要性。

实际意义

快速本地化：企业可以在无需大规模母语数据的情况下，将现有多语言模型快速适配到新市场（如斯堪的纳维亚、非洲或南亚语言）。
成本效益的 AI：消除了昂贵的人类标注流水线的需求；合成数据加上基于策略的学习即可获得可用且流利的助手。
更佳用户体验：在用户语言中听起来自然的聊天机器人、摘要工具或代码助手能够提升采纳率和信任度。
开源社区推动：该技术可以打包成即插即用的后训练脚本，使爱好者和小型公司也能提升语言覆盖率。
合规与安全：在对齐奖励模型的同时保持流利，可避免产生“破碎”或生硬的输出，从而降低被误解为低质量或有偏见的风险。

局限性与未来工作

语言范围：研究聚焦于挪威 Bokmål；对形态或文字体系差异巨大的语言（如阿拉伯语、印地语）可能会有不同的效果。
奖励模型质量：该方法仍依赖可能带有英语中心偏见的奖励模型；提升多语言奖励模型仍是一个待解挑战。
人工评估的可扩展性：母语使用者的流利度评估成本高昂；需要进一步验证自动流利度代理的有效性。
未来方向：作者建议将流水线扩展到真正的低资源语言（即使预训练数据极少），尝试更大的基础模型，并引入能够理解文化细微差别的多语言奖励模型。

作者

David Samuel
Lilja Øvrelid
Erik Velldal
Andrey Kutuzov

论文信息

arXiv ID: 2512.08777v1
分类: cs.CL, cs.AI
发布日期: 2025 年 12 月 9 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

虽然 voice-based AI systems 已经实现了显著的 generative capabilities，但它们的交互往往在对话上显得支离破碎。本文考察了其中的……

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

从大量非结构化的历史报纸档案中提取连贯且人类可理解的主题面临重大挑战，原因是……

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

检索增强生成（RAG）模型依赖检索到的证据来指导大型语言模型（LLM）生成器，然而当前系统将检索视为……

[Paper] 可视化黑盒语言模型的 token 重要性

我们考虑审计 black-box 大型语言模型（LLMs）的问题，以确保它们在生产环境中部署时能够可靠运行，特别是在……