[Paper] 对联邦 RLHF 中偏好聚合的系统评估——实现 LLM 多元对齐

发布: (2025年12月10日 GMT+8 00:39)
7 min read
原文: arXiv

Source: arXiv - 2512.08786v1

概览

大型语言模型(LLM)正日益通过人类反馈(RLHF)进行微调,以实现更负责任的行为。当这些反馈来自许多不同的用户群体——比如每个组织或社区在本地训练的联邦设置时,传统的“奖励平均”方法可能会淹没少数派的观点。本文提出了一种系统化的方法来评估我们应如何合并这些不同的偏好信号,并引入了一种自适应聚合方案,在对齐质量与各群体公平性之间取得平衡。

关键贡献

  • 评估框架:用于衡量联邦 RLHF 中对齐性能与奖励聚合公平性之间的权衡。
  • 全面基准:在问答任务上使用基于 PPO 的 RLHF 流水线进行实验,覆盖三种经典聚合器(min、max、average)。
  • 新颖自适应聚合算法:根据各群体历史对齐成功情况对其奖励信号重新加权,且从不传输原始数据。
  • 实证证据:自适应方法在提升公平性(各群体性能更均衡)的同时,使整体对齐分数与最佳静态基线持平。
  • 开源参考实现(代码和脚本),帮助实践者复现并扩展实验。

方法论

  1. 联邦 RLHF 设置 – 每个参与群体(例如公司、地区用户群)运行本地 RLHF 回路:采样模型输出、收集人类偏好判断,并计算标量奖励信号。原始文本或用户数据不离开群体。
  2. 奖励聚合策略 – 中央服务器仅接收每个群体的奖励值,并使用以下方式进行组合:
    • Min(最坏情况)
    • Max(最好情况)
    • Average(标准)
    • Adaptive(本文提出):为每个群体维护一个移动平均权重,当该群体的奖励导致下游对齐指标提升时,权重会增加。
  3. 训练流水线 – 聚合后的奖励驱动全局 LLM 的 PPO(近端策略优化)更新。该过程重复多个联邦轮次。
  4. 指标
    • 对齐分数:标准 RLHF 评估(例如相对于参考模型的问答胜率)。
    • 公平指数:各群体对齐分数的方差或差异(方差越低公平性越高)。
  5. 实验协议 – 模拟了三个具有不同偏好分布的异构用户群体。每个实验使用多个随机种子以确保统计可靠性。

结果与发现

聚合器平均对齐分数 ↑公平性(标准差) ↓
Min71.2 %4.1 %
Max78.9 %9.8 %
Average77.4 %6.3 %
Adaptive77.1 %3.2 %
  • 自适应方案在原始对齐分数上与表现最好的静态聚合器(max)持平,同时将公平性差距比 average 减半。
  • 在所有运行中,自适应方法始终将最差群体的表现保持在最佳群体的 2 % 以内,这相较于 min 与 max 基线有显著提升。
  • 消融研究表明,收益来源于动态加权,而非单纯平滑;若提前固定权重,公平性提升会消失。

实际意义

  • 产品团队可以部署尊重地区或人口差异的 RLHF 流水线,而无需集中敏感反馈数据——这对符合 GDPR 的 AI 服务至关重要。
  • AI 市场平台(如代码助手、聊天机器人)能够为所有合作开发者保证基线质量,降低少数用户群体提出“模型偏见”投诉的风险。
  • 开源模型维护者获得了一套可直接使用的联邦微调方案,自动在性能与公平之间取得平衡,减少自定义加权方案的工程开销。
  • 自适应聚合器可以无缝接入现有基于 PPO 的 RLHF 库(例如 🤗 TRL、OpenAI 的 trl),只需用提供的加权逻辑替换奖励平均步骤即可。

局限性与未来工作

  • 合成群体:实验使用了模拟的偏好分布;真实世界的联邦部署可能呈现更复杂、非平稳的行为。
  • 可扩展性:权重更新在中心计算;扩展到数千个客户端可能导致延迟——未来工作可探索去中心化或层级化加权。
  • 奖励粒度:仅聚合了标量奖励;更丰富的反馈(如多维偏好向量)可能需要更复杂的融合技术。
  • 更广任务:本研究聚焦于问答;扩展到生成、摘要或代码合成等任务可能会揭示任务特定的动态。

核心结论:通过系统评估在联邦 RLHF 中合并人类偏好的方式,作者提供了诊断工具箱和实用的自适应聚合器,帮助开发者构建既强大又对多元用户公平的 LLM。

作者

  • Mahmoud Srewa
  • Tianyu Zhao
  • Salma Elmalaki

论文信息

  • arXiv ID: 2512.08786v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »