[Paper] 奖励稀有:唯一性感知 RL 在 LLM 中的创意问题求解
发布: (2026年1月14日 GMT+8 01:48)
8 min read
原文: arXiv
Source: arXiv - 2601.08763v1
概述
本文介绍了 Uniqueness‑Aware Reinforcement Learning (UARL),这是一种新的微调大型语言模型(LLM)的方法,使其不仅能够得到正确答案,还能探索 不同 的高层次解决方案策略。通过在强化学习训练中奖励罕见且正确的方法,作者展示了 LLM 在保持 pass@1 性能的同时,显著提升 pass@k(即前‑k 个采样答案中 任意 一个正确的概率)。这对于任何构建需要提供多种可行方案的 AI 助手的开发者都很重要——比如代码生成、科学推理或医学诊断。
关键贡献
- Rollout‑level diversity objective: 引入一种奖励,其规模与解答策略簇的大小成反比,鼓励模型产生新颖且正确的答案。
- LLM‑based judge for clustering: 使用单独的 LLM 自动按高层推理模式对生成的 rollout 进行分组,忽略表面的 token 级别差异。
- Empirical gains across domains: 在数学 (MATH)、物理 (PhysicsQA) 和医学推理 (MedQA) 基准上展示了在不降低 pass@1 的情况下,pass@k 和 AUC@K 的一致提升。
- Scalable exploration: 表明该方法在每个问题采样数千个 rollout 的情况下仍能保持多样性,而传统 RL 往往会收敛到单一主导策略。
- Open‑source implementation: 提供代码和预训练检查点,便于实践者将 UARL 插入现有的 RL‑HF 流程。
方法论
- 基线 RL 设置: 从预训练的大语言模型(LLM)开始,使用标准的人类反馈强化学习(RLHF)或 AI 反馈强化学习(RLAIF)进行微调,奖励函数反映答案的正确性。
- 生成 rollout: 对每个训练提示,采样一批候选完成(例如 64–256 条)。
- 对 rollout 进行聚类: 将每个候选送入 judge LLM(一个独立模型),该模型输出对推理策略的高层描述(例如 “使用分部积分”、 “使用换元”、 “猜测并检验”)。描述相同的候选被放入同一簇。
- 计算唯一性权重: 对于包含 n 个成员的簇,分配权重
1 / n(或其平滑变体)。该权重乘以标准优势(奖励 – 基线)用于每个 rollout。 - 策略更新: 在 PPO(或其他 RL)损失中使用加权后的优势,使得稀有但正确的策略获得更大的梯度信号。
- 迭代: 重复上述过程,使策略逐步将概率质量分配给多样且高效的策略。
关键洞见在于,奖励不再是每个 token 或每个样本的标量;它是一个 集合感知(set‑aware)信号,显式地重视 解法新颖性。
结果与发现
| 基准 | Pass@1(基线) | Pass@k(k=64) | Δ Pass@k | AUC@K ↑ |
|---|---|---|---|---|
| MATH | 34.2 % | 58.1 % | +23.9 % | +0.12 |
| PhysicsQA | 41.5 % | 66.3 % | +24.8 % | +0.15 |
| MedQA | 48.7 % | 71.9 % | +23.2 % | +0.13 |
- Pass@1保持平稳(±0.3 %)——模型并未牺牲其最佳答案质量。
- Pass@k提升20‑30 %,在所有任务中均有显著提升,表明正确解答的池更为丰富。
- **AUC@K(pass@k 曲线下面积)**持续提升,证实该收益在整个抽样预算范围内均有效。
- 定性分析显示出现了新的推理模式(例如,数学中的替代证明技巧,医学中的不同诊断路径),这些在基线策略中不存在。
实际意义
- 代码助手: 开发者可以检索函数的多种正确实现,每种实现采用不同的算法思路(动态规划 vs. 贪心),为用户提供选择并具有教育价值。
- 科学 AI: 研究人员可以让 LLM 提出多个合理的假设或推导,提升在无需手动提示技巧的情况下发现新见解的机会。
- 医疗聊天机器人: 诊断助手可以建议多个可行的治疗方案,每个方案基于不同的临床推理路径,支持共享决策。
- 生产力工具: 自动补全引擎可以呈现多样的表述或工作流建议,减少大规模生成中常见的“千篇一律”疲劳。
- 评估流水线: 由于 pass@k 对许多真实系统更为现实(可以抽样多个候选并排序),UARL 直接将模型训练与部署时的目标对齐。
限制与未来工作
- Judge LLM quality(评判LLM质量): 聚类依赖于辅助模型的准确性;误分类可能误导奖励。
- Computational overhead(计算开销): 为每个提示生成并聚类数百个 rollout 会增加延迟和 GPU 成本,对低预算微调可能不可行。
- Scalability to extremely large k(对极大 k 的可扩展性): 虽然该方法在几百个样本内有效,但收益在更大规模时趋于平稳,表明回报递减。
- Domain‑specific clustering(领域特定聚类): 当前方法使用通用 LLM 判官;未来工作可引入领域本体或人工标注的策略标签,以实现更细粒度的划分。
- Safety considerations(安全性考虑): 鼓励新颖性可能无意中推动不安全的非常规方案(例如在医疗建议中);需要集成相应的安全防护措施。
结论: Uniqueness‑Aware RL 为希望 LLM 不仅能给出正确答案,还能“另辟蹊径”的开发者提供了一套务实的方案。通过重塑奖励结构以重视罕见且正确的策略,该技术弥合了学术 RL 研究与在多样化、高质量输出上表现出色的真实 AI 产品之间的差距。
作者
- Zhiyuan Hu
- Yucheng Wang
- Yufei He
- Jiaying Wu
- Yilun Zhao
- See-Kiong Ng
- Cynthia Breazeal
- Anh Tuan Luu
- Hae Won Park
- Bryan Hooi
论文信息
- arXiv ID: 2601.08763v1
- 分类: cs.LG, cs.CL
- 发布时间: 2026年1月13日
- PDF: 下载 PDF