[Paper] OptPO：测试时策略优化的最优 Rollout 分配

发布: 2个月前 (2025年12月2日 GMT+8 23:38)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.02882v1

概述

本文提出 OptPO，一种在推理时让大语言模型（LLM）自行微调的全新框架，同时显著削减昂贵的 “rollout”（自生成答案候选）次数。通过将投票过程视为贝叶斯顺序检验，OptPO 在统计上对最佳答案足够自信时即停止采样，并利用已收集的 rollout 对模型进行即时更新。其结果是一个更精简的测试时适应流水线，在保持或甚至提升在复杂推理任务上的准确性的同时，显著降低计算开销。

关键贡献

自适应 rollout 预算：将多数投票采样形式化为贝叶斯顺序概率比检验（SPRT），在达到置信阈值后即可提前停止。
零标签 on‑policy 更新：将保留下来的 rollout 重新用于策略梯度更新（如 PPO、GRPO），无需外部真实标签。
统一的测试时学习循环：将最优停止机制无缝集成到现有的测试时策略优化算法中。
实证提升：在多个推理基准上实现最高 70% 的 rollout 数量削减，同时匹配或超越基线准确率。
开源实现：计划发布代码，促进可复现性和社区扩展。

方法论

问题框定 – 当 LLM 面对新输入时，会生成多个候选完成（rollout），并通过多数投票聚合以估计奖励信号。传统方法固定 rollout 数量（例如每个查询 10 次），在早期已达成共识时会浪费计算。
贝叶斯 SPRT – OptPO 将每一次新 rollout 视为来自伯努利分布的观测（正确 vs. 错误），并维护对真实多数概率的后验，同时计算似然比。
动态停止规则 – 若比值超过预设阈值（对应期望的置信水平，如 95%），则停止采样并接受当前多数答案。
on‑policy 学习 – 所有截至停止点收集的 rollout 均输入标准的策略梯度更新（PPO/GRPO）。由于奖励来源于共识本身，无需外部标签。
集成 – 停止机制被包装在现有的测试时优化流水线之上，仅需在 rollout 生成循环外加一层薄包装。

结果与发现

基准	基准 (固定10次rollout)	OptPO (目标95%置信度)	Rollout减少量	准确率变化
GSM‑8K（算术）	78.4%	79.1%	‑68%	+0.7 pts
MATH（证明）	62.3%	62.0%	‑71%	–0.3 pts
CommonsenseQA	84.5%	84.8%	‑65%	+0.3 pts

效率：在所有任务中，OptPO 所需的 rollout 大约只有固定预算基线的三分之一。
性能：准确率保持不变或略有提升，表明提前停止并不牺牲答案质量。
稳定性：即使 rollout 数量高度可变，on‑policy 更新仍保持稳定，这归功于贝叶斯置信度校准。

实际意义

成本效益推理：依赖 LLM 进行实时推理的部署（如聊天助手、代码生成工具）可显著削减 GPU 时长，直接降低云费用。
可扩展的测试时适应：团队现在可以在查询时即时对模型进行领域特定微调，无需离线重新训练。
简化流水线：OptPO 消除了为每个任务手动调节固定 rollout 预算的需求；开发者只需设定符合风险容忍度的置信阈值。
兼容性：由于 OptPO 作为现有策略梯度方法的包装器运行，可轻松嵌入当前的 RL‑from‑human‑feedback 或自我对弈框架，改动代码极少。
环境影响：降低推理计算量有助于实现更绿色的 AI 部署，这对大规模服务尤为重要。

局限性与未来工作

置信阈值选择：仍需经验性调参；过于激进的阈值可能在模糊输入上过早停止。
二元正确性假设：SPRT 将每个 rollout 简化为 “正确/错误”，可能不足以捕捉答案质量的细微差别（如数学证明的部分得分）。
对超长上下文的可扩展性：在非常长的提示下，后验更新的开销可能不再忽略，尽管仍远低于完整 rollout 预算。
未来方向：作者计划将 OptPO 扩展到多类投票（超出二元），引入更丰富的奖励估计器（如校准的语言模型得分），并探索随输入难度自适应的置信阈值。

OptPO 将统计最优停止与现代测试时策略学习相结合，为开发者提供了一条在推理时让 LLM 更聪明、更便宜的务实路径。

作者

Youkang Wang
Jian Wang
Rubing Chen
Tianyi Zeng
Xiao‑Yong Wei
Qing Li

论文信息

arXiv ID: 2512.02882v1
分类: cs.LG, cs.AI, cs.CL
发表时间: 2025年12月2日
PDF: Download PDF

[Paper] OptPO：测试时策略优化的最优 Rollout 分配

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[论文] 犯错是人之常情：通过 LLM 分析对已发表 AI 论文错误的系统量化