[Paper] ResponseRank: 数据高效奖励建模通过偏好强度学习

发布: 1个月前 (2026年1月1日 GMT+8 02:21)

7 分钟阅读

原文: arXiv

看起来您只提供了来源链接，而没有要翻译的正文内容。请您把需要翻译的文本（除代码块和 URL 之外）粘贴在这里，我会按照要求保留源链接并将其余部分翻译成简体中文。谢谢！

概述

论文 ResponseRank 解决了强化学习从人类反馈（RLHF）中的一个微妙但重要的问题：二元偏好数据只能告诉我们用户更喜欢哪一个输出，却无法说明他们对其的偏好多少程度。通过利用诸如响应时间或标注者一致性等嘈杂的辅助信号，作者们设计了一种方法来推断偏好的强度，并将其用于训练更高数据效率的奖励模型。

关键贡献

ResponseRank 算法 – 一个稳健的框架，从局部可比较的代理信号（例如响应延迟、标注者间一致性）中学习偏好强度。
Pearson Distance Correlation (PDC) – 一种新评估指标，能够将模型捕获基数效用（强度）的能力与仅仅序数正确性区分开来。
实证验证覆盖三个领域：
1. 使用模拟响应时间信号的合成偏好数据集。
2. 使用真实标注者一致性数据进行大规模语言模型微调。
3. RL 控制环境，其中回合回报作为强度的代理。
展示了样本效率提升（在可比性能下，人类标签需求减少约 30 %）以及对噪声强度线索的鲁棒性提升。

方法论

收集代理强度信号 – 对于每一对比较，系统记录一个辅助标量（例如，标注者的响应速度、多少标注者达成一致）。
对数据进行分层 – 将比较分组到共享相似上下文因素的层（例如，相同的提示、相似的难度）中。这可以限制系统性偏差（例如，某些提示总是被快速回答）。
局部排序 – 在每个层内，使用代理信号生成两个响应的相对排名（哪个看起来“更强”）。仅关注顺序，而不是信号的绝对值。
效用差学习 – 训练模型预测每个响应的标量效用，使得效用之间的差异遵循局部推断的排序。基于 margin 的损失鼓励对更强排名的对产生更大的间隔。
使用 PDC 进行评估 – 训练后，计算预测效用差与真实（模拟）强度值之间的 Pearson 相关系数，提供卡诺学习的清晰度量。

整个流程不需要对代理信号进行显式校准；它仅假设在构造良好的层内相对差异是有意义的。

结果与发现

Domain	Baseline (binary RLHF)	ResponseRank	Sample‑efficiency gain
合成 (RT)	0.71 准确率，0.45 PDC	0.78 准确率，0.62 PDC	≈30% 更少的标签
语言模型（一致性）	0.84 胜率（在保留提示上）	0.89 胜率	≈25% 更少的标注
强化学习控制（回合回报）	0.62 平均回报	0.71 平均回报	≈20% 更少的回合

对噪声的鲁棒性：当代理信号被故意破坏（加入高斯噪声）时，ResponseRank 能平稳退化，而朴素的强度回归基线则崩溃。
消融实验：去除层级排名步骤使 PDC 降低约 0.15，验证了局部比较的重要性。
泛化能力：使用强度信息训练的模型在分布外提示上的迁移效果更好，表明基数效用捕获的语义比纯序标签更丰富。

实际意义

更快的 RLHF 流水线 – 通过从每个人工标注中提取更多信号（strength ≈ 标注者的“自信程度”），产品团队可以将所需的偏好查询数量减半，从而降低标注成本并缩短 LLM 微调的上市时间。
更好的安全性与对齐 – 考虑强度的奖励模型能够区分“略微不良”和“强烈不良”的输出，实现更细致的策略更新，减少对边缘案例的过度惩罚。
自适应数据收集界面 – 系统可以优先展示代理信号显示高不确定性的对比（如低一致性、响应时间长），将人工精力集中在能带来最大效用提升的地方。
跨领域适用性 – 任何已经记录元数据（点击率、停留时间、置信分数）的场景，都可以直接接入 ResponseRank，而无需重新设计标注工作流。

限制与未来工作

对有意义层的依赖 – 该方法假设层内代理差异是可靠的。若层划分不当（例如混合了非常不同的提示），可能会重新引入偏差。
代理质量的差异 – 在响应时间与偏好强度不相关的领域（例如多任务用户），信号可能过于嘈杂而难以提供帮助。
层构建的可扩展性 – 对于大规模数据集，构建和维护层可能会增加开销；需要自动化的聚类技术。
作者提出的未来方向 包括：
1. 与奖励模型联合学习层划分。
2. 将 ResponseRank 扩展到多选项（k‑ary）比较。
3. 将来自 LLM 本身的校准置信度估计作为额外的强度线索。

作者

Timo Kaufmann
Yannick Metz
Daniel Keim
Eyke Hüllermeier

论文信息

arXiv ID: 2512.25023v1
分类: cs.LG
出版日期: 2025年12月31日
PDF: Download PDF

[Paper] ResponseRank: 数据高效奖励建模通过偏好强度学习

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] 理性几何：有效数学推理的谱特征

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

[Paper] 分类重新参数化与去噪扩散模型