[Paper] OptPO:测试时策略优化的最优 Rollout 分配
发布: (2025年12月2日 GMT+8 23:38)
6 min read
原文: arXiv
Source: arXiv - 2512.02882v1
概述
本文提出 OptPO,一种在推理时让大语言模型(LLM)自行微调的全新框架,同时显著削减昂贵的 “rollout”(自生成答案候选)次数。通过将投票过程视为贝叶斯顺序检验,OptPO 在统计上对最佳答案足够自信时即停止采样,并利用已收集的 rollout 对模型进行即时更新。其结果是一个更精简的测试时适应流水线,在保持或甚至提升在复杂推理任务上的准确性的同时,显著降低计算开销。
关键贡献
- 自适应 rollout 预算:将多数投票采样形式化为贝叶斯顺序概率比检验(SPRT),在达到置信阈值后即可提前停止。
- 零标签 on‑policy 更新:将保留下来的 rollout 重新用于策略梯度更新(如 PPO、GRPO),无需外部真实标签。
- 统一的测试时学习循环:将最优停止机制无缝集成到现有的测试时策略优化算法中。
- 实证提升:在多个推理基准上实现最高 70% 的 rollout 数量削减,同时匹配或超越基线准确率。
- 开源实现:计划发布代码,促进可复现性和社区扩展。
方法论
- 问题框定 – 当 LLM 面对新输入时,会生成多个候选完成(rollout),并通过多数投票聚合以估计奖励信号。传统方法固定 rollout 数量(例如每个查询 10 次),在早期已达成共识时会浪费计算。
- 贝叶斯 SPRT – OptPO 将每一次新 rollout 视为来自伯努利分布的观测(正确 vs. 错误),并维护对真实多数概率的后验,同时计算似然比。
- 动态停止规则 – 若比值超过预设阈值(对应期望的置信水平,如 95%),则停止采样并接受当前多数答案。
- on‑policy 学习 – 所有截至停止点收集的 rollout 均输入标准的策略梯度更新(PPO/GRPO)。由于奖励来源于共识本身,无需外部标签。
- 集成 – 停止机制被包装在现有的测试时优化流水线之上,仅需在 rollout 生成循环外加一层薄包装。
结果与发现
| 基准 | 基准 (固定10次rollout) | OptPO (目标95%置信度) | Rollout减少量 | 准确率变化 |
|---|---|---|---|---|
| GSM‑8K(算术) | 78.4% | 79.1% | ‑68% | +0.7 pts |
| MATH(证明) | 62.3% | 62.0% | ‑71% | –0.3 pts |
| CommonsenseQA | 84.5% | 84.8% | ‑65% | +0.3 pts |
- 效率:在所有任务中,OptPO 所需的 rollout 大约只有固定预算基线的三分之一。
- 性能:准确率保持不变或略有提升,表明提前停止并不牺牲答案质量。
- 稳定性:即使 rollout 数量高度可变,on‑policy 更新仍保持稳定,这归功于贝叶斯置信度校准。
实际意义
- 成本效益推理:依赖 LLM 进行实时推理的部署(如聊天助手、代码生成工具)可显著削减 GPU 时长,直接降低云费用。
- 可扩展的测试时适应:团队现在可以在查询时即时对模型进行领域特定微调,无需离线重新训练。
- 简化流水线:OptPO 消除了为每个任务手动调节固定 rollout 预算的需求;开发者只需设定符合风险容忍度的置信阈值。
- 兼容性:由于 OptPO 作为现有策略梯度方法的包装器运行,可轻松嵌入当前的 RL‑from‑human‑feedback 或自我对弈框架,改动代码极少。
- 环境影响:降低推理计算量有助于实现更绿色的 AI 部署,这对大规模服务尤为重要。
局限性与未来工作
- 置信阈值选择:仍需经验性调参;过于激进的阈值可能在模糊输入上过早停止。
- 二元正确性假设:SPRT 将每个 rollout 简化为 “正确/错误”,可能不足以捕捉答案质量的细微差别(如数学证明的部分得分)。
- 对超长上下文的可扩展性:在非常长的提示下,后验更新的开销可能不再忽略,尽管仍远低于完整 rollout 预算。
- 未来方向:作者计划将 OptPO 扩展到多类投票(超出二元),引入更丰富的奖励估计器(如校准的语言模型得分),并探索随输入难度自适应的置信阈值。
OptPO 将统计最优停止与现代测试时策略学习相结合,为开发者提供了一条在推理时让 LLM 更聪明、更便宜的务实路径。
作者
- Youkang Wang
- Jian Wang
- Rubing Chen
- Tianyi Zeng
- Xiao‑Yong Wei
- Qing Li
论文信息
- arXiv ID: 2512.02882v1
- 分类: cs.LG, cs.AI, cs.CL
- 发表时间: 2025年12月2日
- PDF: Download PDF