[Paper] 奖励稀有：唯一性感知 RL 在 LLM 中的创意问题求解

发布: 3周前 (2026年1月14日 GMT+8 01:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.08763v1

概述

本文介绍了 Uniqueness‑Aware Reinforcement Learning (UARL)，这是一种新的微调大型语言模型（LLM）的方法，使其不仅能够得到正确答案，还能探索不同的高层次解决方案策略。通过在强化学习训练中奖励罕见且正确的方法，作者展示了 LLM 在保持 pass@1 性能的同时，显著提升 pass@k（即前‑k 个采样答案中任意一个正确的概率）。这对于任何构建需要提供多种可行方案的 AI 助手的开发者都很重要——比如代码生成、科学推理或医学诊断。

关键贡献

Rollout‑level diversity objective: 引入一种奖励，其规模与解答策略簇的大小成反比，鼓励模型产生新颖且正确的答案。
LLM‑based judge for clustering: 使用单独的 LLM 自动按高层推理模式对生成的 rollout 进行分组，忽略表面的 token 级别差异。
Empirical gains across domains: 在数学 (MATH)、物理 (PhysicsQA) 和医学推理 (MedQA) 基准上展示了在不降低 pass@1 的情况下，pass@k 和 AUC@K 的一致提升。
Scalable exploration: 表明该方法在每个问题采样数千个 rollout 的情况下仍能保持多样性，而传统 RL 往往会收敛到单一主导策略。
Open‑source implementation: 提供代码和预训练检查点，便于实践者将 UARL 插入现有的 RL‑HF 流程。

方法论

基线 RL 设置： 从预训练的大语言模型（LLM）开始，使用标准的人类反馈强化学习（RLHF）或 AI 反馈强化学习（RLAIF）进行微调，奖励函数反映答案的正确性。
生成 rollout： 对每个训练提示，采样一批候选完成（例如 64–256 条）。
对 rollout 进行聚类： 将每个候选送入 judge LLM（一个独立模型），该模型输出对推理策略的高层描述（例如 “使用分部积分”、 “使用换元”、 “猜测并检验”）。描述相同的候选被放入同一簇。
计算唯一性权重： 对于包含 n 个成员的簇，分配权重 1 / n（或其平滑变体）。该权重乘以标准优势（奖励 – 基线）用于每个 rollout。
策略更新： 在 PPO（或其他 RL）损失中使用加权后的优势，使得稀有但正确的策略获得更大的梯度信号。
迭代： 重复上述过程，使策略逐步将概率质量分配给多样且高效的策略。

关键洞见在于，奖励不再是每个 token 或每个样本的标量；它是一个 集合感知（set‑aware）信号，显式地重视 解法新颖性。

结果与发现

基准	Pass@1（基线）	Pass@k（k=64）	Δ Pass@k	AUC@K ↑
MATH	34.2 %	58.1 %	+23.9 %	+0.12
PhysicsQA	41.5 %	66.3 %	+24.8 %	+0.15
MedQA	48.7 %	71.9 %	+23.2 %	+0.13

Pass@1保持平稳（±0.3 %）——模型并未牺牲其最佳答案质量。
Pass@k提升20‑30 %，在所有任务中均有显著提升，表明正确解答的池更为丰富。
**AUC@K（pass@k 曲线下面积）**持续提升，证实该收益在整个抽样预算范围内均有效。
定性分析显示出现了新的推理模式（例如，数学中的替代证明技巧，医学中的不同诊断路径），这些在基线策略中不存在。

实际意义

代码助手： 开发者可以检索函数的多种正确实现，每种实现采用不同的算法思路（动态规划 vs. 贪心），为用户提供选择并具有教育价值。
科学 AI： 研究人员可以让 LLM 提出多个合理的假设或推导，提升在无需手动提示技巧的情况下发现新见解的机会。
医疗聊天机器人： 诊断助手可以建议多个可行的治疗方案，每个方案基于不同的临床推理路径，支持共享决策。
生产力工具： 自动补全引擎可以呈现多样的表述或工作流建议，减少大规模生成中常见的“千篇一律”疲劳。
评估流水线： 由于 pass@k 对许多真实系统更为现实（可以抽样多个候选并排序），UARL 直接将模型训练与部署时的目标对齐。

限制与未来工作

Judge LLM quality（评判LLM质量）: 聚类依赖于辅助模型的准确性；误分类可能误导奖励。
Computational overhead（计算开销）: 为每个提示生成并聚类数百个 rollout 会增加延迟和 GPU 成本，对低预算微调可能不可行。
Scalability to extremely large k（对极大 k 的可扩展性）: 虽然该方法在几百个样本内有效，但收益在更大规模时趋于平稳，表明回报递减。
Domain‑specific clustering（领域特定聚类）: 当前方法使用通用 LLM 判官；未来工作可引入领域本体或人工标注的策略标签，以实现更细粒度的划分。
Safety considerations（安全性考虑）: 鼓励新颖性可能无意中推动不安全的非常规方案（例如在医疗建议中）；需要集成相应的安全防护措施。

结论: Uniqueness‑Aware RL 为希望 LLM 不仅能给出正确答案，还能“另辟蹊径”的开发者提供了一套务实的方案。通过重塑奖励结构以重视罕见且正确的策略，该技术弥合了学术 RL 研究与在多样化、高质量输出上表现出色的真实 AI 产品之间的差距。

作者

Zhiyuan Hu
Yucheng Wang
Yufei He
Jiaying Wu
Yilun Zhao
See-Kiong Ng
Cynthia Breazeal
Anh Tuan Luu
Hae Won Park
Bryan Hooi

论文信息

arXiv ID: 2601.08763v1
分类: cs.LG, cs.CL
发布时间: 2026年1月13日
PDF: 下载 PDF

[Paper] 奖励稀有：唯一性感知 RL 在 LLM 中的创意问题求解

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力