[Paper] ThetaEvolve:测试时学习在开放问题上

发布: (2025年11月29日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2511.23473v1

概览

ThetaEvolve 是一个开源框架,使单个大型语言模型(LLM)能够在求解开放式数学优化问题的过程中 学习。通过将测试时的上下文学习与强化学习(RL)更新相结合,模型可以迭代地改进自己的问题求解策略,并在圆形包装和首个自相关不等式等经典挑战上实现突破性的界限。

关键贡献

  • 统一的测试时学习循环:将上下文提示和 RL 更新合并为一个在推理阶段运行的管线。
  • 单模型效率:展示了一个 80 亿参数的开源模型(DeepSeek‑R1‑0528‑Qwen3‑8B)能够超越 AlphaEvolve 使用的更大、闭源的模型集合的性能。
  • 可扩展的探索:引入大规模程序数据库和批量采样,显著提升搜索过程的吞吐量。
  • 稳定性技巧:实现了惰性惩罚以抑制重复输出,并提供可选的奖励塑形以获得更平滑的 RL 信号。
  • 泛化证据:表明经过 RL 训练的检查点不仅在训练任务上表现出色,还能迁移到未见过的开放问题上。

方法论

  1. 程序数据库 – 离线存储的候选程序(例如数学构造)集合。LLM 从该池中抽样作为每次试验的起点。
  2. 上下文提示 – 对于每个批次,模型收到的提示包括当前最佳解、最近的几次尝试以及问题定义。这让模型能够“推理”哪些方法有效、哪些无效。
  3. 批量采样 – ThetaEvolve 并行抽取大量候选,在 LLM 中同时处理,以提升吞吐量,而不是单一顺序搜索。
  4. 奖励计算 – 对每个生成的程序进行执行(或解析评估),计算数值奖励(例如更紧的包装密度)。
  5. 惰性惩罚 – 若一个批次产生重复或停滞的解,则在奖励上加上小额惩罚,推动模型产生新颖解。
  6. 测试时 RL 更新 – 使用轻量级的策略梯度算法(如 REINFORCE),在模型仍在提供推理服务时,将参数微调向产生更高奖励的动作倾斜。
  7. 可选奖励塑形 – 对噪声较大的任务,可提供平滑的奖励(例如移动平均基线),以降低方差。

整个循环反复运行,直至满足停止准则(时间预算或收敛),从而让模型在运行时“进化”自己的求解策略。

结果与发现

  • 纪录界限:使用 8B 参数模型的 ThetaEvolve 在两个基准问题(圆形包装和首个自相关不等式)上超越了 AlphaEvolve 的最佳已知结果。
  • 持续收益:在两种 LLM 和四个开放式任务上,加入 RL 的版本相较于纯推理基线在最终奖励上提升了 10‑30 %。
  • 更快收敛:RL 训练的检查点在更少的迭代次数内达到了高质量解,表明模型已经内化了有用的启发式策略。
  • 跨任务迁移:在一个问题上微调的检查点在其他未见过的问题上也表现出提升,暗示所学习的“进化”行为具有一定的通用性。

实际意义

  • 成本效益研究:小型开源模型现在能够与庞大的专有模型集合竞争,降低学术界和工业界探索自动定理证明或组合优化的门槛。
  • 持续改进服务:开发者可以将 ThetaEvolve 嵌入 SaaS 平台,使模型从用户提交的挑战中不断学习,提供日益优越的解答,而无需从头重新训练。
  • 自动化设计流水线:芯片布局、材料包装或信号处理等领域常涉及开放式优化问题;ThetaEvolve 可作为即插即用的优化器,在部署期间自行调优。
  • 开源生态:公开发布的代码和程序数据库邀请社区贡献,促进协作的“进化 AI”社区建设。

局限性与未来工作

  • 可扩展性上限:虽然批量采样提升了吞吐量,但该方法仍依赖大量候选程序的执行,对计算成本高的评估可能成为瓶颈。
  • 奖励噪声:对于目标噪声大或难以精确计算的问题,即使使用惰性惩罚和奖励塑形,RL 更新仍可能不稳定。
  • 模型规模权衡:当前成功案例基于 8B 参数模型;尚不清楚该方法在更小模型或上百亿参数系统上的表现。
  • 泛化范围:向完全不同领域(如符号积分)的迁移仍需系统性研究。未来工作可探索跨多问题族的元学习,并结合更复杂的探索策略(如好奇心驱动采样)。

ThetaEvolve 为开发者提供了一条实用路径,利用 LLM 的自适应能力解决开放式、数学密集型任务——将仅推理的模型转变为自我改进的问题求解者。

作者

  • 王一平
  • 苏少荣
  • 曾志远
  • 徐伊娃
  • 任黎亮
  • 杨欣宇
  • 黄泽毅
  • 何学海
  • 马路遥
  • 彭宝林
  • 程浩
  • 何鹏程
  • 陈伟珠
  • 王硕航
  • 杜绍磊
  • 沈业龙

论文信息

  • arXiv ID: 2511.23473v1
  • 分类: cs.LG, cs.CL
  • 发表时间: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »