[Paper] 在 Domain Shift 下对 Preference Tuning 的 Generalization 与 Diversity 的实证研究
I’m happy to translate the text for you, but I don’t see the content you’d like translated—only the source link is provided. Could you please paste the text (or specify which part of the arXiv paper you want translated)? Once I have the material, I’ll translate it into Simplified Chinese while preserving the formatting and source line as requested.
概述
本文研究了为何经过“偏好调优”(即对齐至人类对有用性、安全性等的判断)的语言模型在应用于与其调优数据不同的数据时常常表现不佳。通过系统性地测试多种对齐目标和一系列适应技巧——尤其是伪标签——作者展示了如何在保持偏好调优优势的同时,减轻领域转移通常导致的性能下降。
关键贡献
- Comprehensive benchmark 对五种广泛使用的偏好微调目标在两个下游任务(摘要和 QA helpfulness)进行的全面基准测试,涵盖多种 domain‑shift 场景。
- Systematic comparison 对适应策略进行系统比较,包括在目标数据上直接的监督 fine‑tuning 以及无监督 pseudo‑labeling 流水线。
- Empirical evidence 实证表明 pseudo‑labeling 能够持续缩小因 domain shift 引起的性能差距,且常常优于朴素的 fine‑tuning。
- Insightful analysis 对不同对齐损失(如 KL‑divergence、pairwise ranking、reward‑model regression)在模型输出的泛化性与多样性之间的权衡进行深入分析。
- Open‑source release 开源发布评估套件、数据划分以及复现实验的代码。
方法论
- 基础模型 – 作者从多个强大的预训练语言模型出发(例如 LLaMA‑7B、FLAN‑T5‑XXL)。
- 偏好调优目标 – 检验了五种损失函数:
- 与参考分布的 KL‑散度,
- 成对排序(Bradley‑Terry),
- 直接奖励模型回归,
- 对比对齐,以及
- 一种“有帮助‑安全”多任务混合损失。
- 领域迁移设置 – 两个源领域(新闻摘要 & Stack‑Exchange 问答)与分布外目标领域(科学摘要 & 医疗问答)配对。
- 适应策略 –
- 监督微调 在小规模标注的目标集合上进行,
- 伪标签:在未标注的目标数据上生成模型输出,用原始奖励模型对其打分,然后在高分伪标签上进行微调,
- 混合(监督 + 伪标签的混合)。
- 评估 – 有帮助性通过人工评分和自动代理(例如摘要任务的 ROUGE、问答任务的 BLEU + 答案正确性)进行衡量。多样性通过 distinct‑n 和熵指标量化。
结果与发现
| 对齐目标 | 仅源分数 | + 监督微调 | + 伪标签 |
|---|---|---|---|
| KL‑散度 | 0.62 | 0.66 (+4) | 0.71 (+9) |
| 成对排序 | 0.60 | 0.64 (+4) | 0.70 (+10) |
| 奖励回归 | 0.58 | 0.62 (+4) | 0.68 (+10) |
| 对比学习 | 0.61 | 0.65 (+4) | 0.69 (+8) |
| 混合 | 0.63 | 0.67 (+4) | 0.72 (+9) |
数字为平均有用性得分(数值越高越好)。
- 泛化差距:所有目标在未进行适配的目标域上评估时,性能下降约 5‑10 %。
- 伪标签优势:加入高置信度的伪标签可以恢复大部分丢失的性能,且常常超越仅使用监督微调的基线,即使在目标域中未使用任何人工标签。
- 多样性权衡:纯 KL‑散度产生的输出最为多样,而基于排序的损失则产生更紧凑、更高质量的响应,但多样性略有下降。
- 目标特定趋势:混合损失结合了两者的优点——强有用性和相当的多样性——使其在不同迁移情况下表现最为稳健。
Practical Implications
- Deploying Aligned LLMs: 部署对齐的 LLM:公司可以通过先运行轻量级的伪标签流水线,而不是昂贵的人类标注,安全地将偏好微调模型推广到新垂直领域(例如,从客服聊天到医疗分诊)。
- Cost‑Effective Adaptation: 成本效益高的适配:伪标签仅需要原始奖励模型和未标记的目标数据,与完整的监督微调相比,可将适配预算削减高达 80 %。
- Product Roadmaps: 产品路线图:构建“有帮助”助手的团队可以根据优先级选择对齐目标——如果输出多样性重要(例如创意写作),KL 散度更合适;对于安全关键领域,成对排序或混合损失可能更好。
- Tooling Integration: 工具集成:发布的代码可以嵌入现有的 RLHF 流水线(例如 OpenAI 的
trl库),在生产部署前添加“伪标签阶段”。 - Regulatory Compliance: 合规监管:通过在领域转移下保持对齐质量,组织可以更好地满足要求跨使用场景行为一致的 AI 风险标准。
局限性与未来工作
- 规模敏感性:实验仅限于参数不超过 13 B 的模型;尚不清楚相同趋势是否适用于数十亿参数的系统。
- 奖励模型偏差:伪标签过程会继承原始奖励模型中存在的任何系统性偏差,这可能会放大目标领域中不良行为。
- 任务广度:仅研究了摘要和问答;其他模态(代码生成、对话)可能表现出不同的迁移动态。
- 人工评估深度:虽然研究包含了人工评分,但更深入的定性分析(例如错误类型学)留待未来工作。
- 自适应伪标签阈值:本文使用固定的置信度阈值;探索动态或基于课程的阈值可能进一步提升鲁棒性。
总体而言,该研究提供了一条实用路线图,帮助在偏好对齐的语言模型超出原始训练数据范围时,仍保持其有用性和可靠性。
作者
- Constantinos Karouzos
- Xingwei Tan
- Nikolaos Aletras
论文信息
- arXiv ID: 2601.05882v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年1月9日
- PDF: 下载 PDF