[Paper] IRPO:通过强化学习实现Bradley‑Terry模型的规模化
发布: (2026年1月2日 GMT+8 20:57)
7 min read
原文: arXiv
Source: arXiv - 2601.00677v1
概览
本文介绍了 IRPO(Intergroup Relative Preference Optimization,群体相对偏好优化),一种强化学习(RL)框架,它用 Bradley‑Terry 风格的点对点评分系统取代了生成奖励模型(GRMs)中成本高昂的成对比较步骤。这样做消除了限制最先进 RL‑基偏好学习可扩展性的二次时间瓶颈,同时保留了使 GRMs 对 LLM 对齐具有吸引力的可解释性和细粒度反馈。
关键贡献
- Bradley‑Terry 集成: 将经典的 Bradley‑Terry 模型改编为为每个候选响应生成标量“偏好分数”,实现 O(n) 评估,而不是 O(n²) 成对比较。
- IRPO 算法: 将点式分数嵌入到 Group Relative Policy Optimization (GRPO) 强化学习循环中,保持相对偏好目标,无需显式的成对抽样。
- 实证验证: 表明 IRPO 在多个基准数据集(例如 OpenAI‑Chat、摘要和代码生成任务)上匹配或超越领先的成对 GRM 性能。
- 训练后优势: 证明使用 IRPO 微调的模型在训练后评估时保持更高的偏好质量,优于成对基线。
- 可扩展性分析: 提供运行时和内存分析,确认随候选数量线性扩展,使该方法在大规模 LLM 微调中实用。
方法论
- 生成奖励模型 (GRM) 主干 – 语言模型被训练来预测奖励标记(或简短的“解释”),给定提示‑响应对,类似于现有的成对 GRM。
- Bradley‑Terry 计分 – 对于每个响应 (r_i),GRM 输出一个 logits (s_i)。Bradley‑Terry 概率,即 (r_i) 相对于 (r_j) 被偏好的概率,计算方式为
[ P(i \succ j) = \frac{e^{s_i}}{e^{s_i} + e^{s_j}}. ]
这将模型的原始输出转换为 点式偏好分数,可在任意数量的候选项之间进行比较。 - 组间相对偏好优化 (IRPO) – RL 代理抽样一批候选响应,获取它们的点式分数,并将 相对优势(候选分数与批次均值的差)输入 GRPO 更新规则。无需显式的成对抽样。
- 训练循环 – 使用标准 PPO 风格的 clipping,依据 IRPO 推导的优势来更新策略(即待对齐的 LLM),同时奖励模型继续在人工标注的偏好数据上进行精炼。
整个流水线仍然 兼容现有的 RLHF 工具包;唯一的改动是将成对奖励估计器替换为 Bradley‑Terry 点式估计器。
结果与发现
| 基准 | 成对 GRM(基线) | IRPO(点对) | 相对 Δ |
|---|---|---|---|
| OpenAI‑Chat(胜率) | 71.3 % | 73.8 % | +2.5 % |
| 摘要(ROUGE‑L) | 45.1 | 45.6 | +0.5 |
| 代码生成(Pass@1) | 32.4 | 33.1 | +0.7 |
| 运行时间(每 1 k 候选) | 12.4 s (≈ O(n²)) | 1.3 s (≈ O(n)) | – 90 % |
- 性能持平: IRPO 达到或略微超过最强成对模型的胜率,同时计算量大幅降低。
- 后训练鲁棒性: 在对未见提示进行评估时,IRPO 训练的策略保持比成对训练更高的偏好分数,表明更好的泛化能力。
- 可扩展性: 将批量规模扩展至 10 k 候选的实验显示运行时间呈线性增长,验证了理论上的 O(n) 优势。
实际意义
- 更快的 RLHF 流程: 团队现在可以在每次更新中运行成千上万的采样完成的偏好式强化学习,而不会触及 GPU 内存限制,将训练时间从数天缩短到数小时。
- 成本降低: 线性评估消除了昂贵的成对采样循环的需求,从而降低了大规模 LLM 对齐项目的云计算费用。
- 更简易的调试与可解释性: 点式得分直接归因于单个响应,使得追踪策略为何偏好某个输出而非另一个变得更容易(例如,通过奖励 token 解释)。
- 更广泛的适用性: 任何目前依赖成对偏好数据的强化学习场景——对话代理、摘要生成、代码助手——都可以用 IRPO 替换,只需极少的代码改动。
- 混合模型的潜力: 开发者可以将 IRPO 的点式得分与偶尔的成对检查相结合,以在不牺牲可扩展性的前提下进一步提升对齐度。
局限性与未来工作
- 假设传递性: Bradley‑Terry 模型假设偏好具有一致的排序,但在高度主观或多维任务中可能不成立。
- 奖励模型质量: IRPO 的收益受到底层 GRM 产生可靠点得分能力的限制;噪声较大的奖励模型仍会削弱性能。
- 评估领域受限: 论文聚焦于文本为中心的基准;将其扩展到多模态或面向视觉‑语言模型的人类反馈强化学习(RLHF)仍是未解之题。
- 未来方向: 作者建议探索 上下文感知的 Bradley‑Terry 扩展、将 不确定性量化 融入点得分,并在 大规模 LLM(≥ 70B 参数) 上测试 IRPO,以验证其在模型规模前沿的可扩展性。
作者
- Haonan Song
- Qingchen Xie
- Huan Zhu
- Feng Xiao
- Luxi Xing
- Fuzhen Li
- Liu Kang
- Feng Jiang
- Zhiyong Zheng
- Fan Yang
论文信息
- arXiv ID: 2601.00677v1
- 分类: cs.LG, cs.AI
- 出版时间: 2026年1月2日
- PDF: 下载 PDF