[Paper] ThetaEvolve：测试时学习在开放问题上

发布: 2个月前 (2025年11月29日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.23473v1

概览

ThetaEvolve 是一个开源框架，使单个大型语言模型（LLM）能够在求解开放式数学优化问题的过程中学习。通过将测试时的上下文学习与强化学习（RL）更新相结合，模型可以迭代地改进自己的问题求解策略，并在圆形包装和首个自相关不等式等经典挑战上实现突破性的界限。

关键贡献

统一的测试时学习循环：将上下文提示和 RL 更新合并为一个在推理阶段运行的管线。
单模型效率：展示了一个 80 亿参数的开源模型（DeepSeek‑R1‑0528‑Qwen3‑8B）能够超越 AlphaEvolve 使用的更大、闭源的模型集合的性能。
可扩展的探索：引入大规模程序数据库和批量采样，显著提升搜索过程的吞吐量。
稳定性技巧：实现了惰性惩罚以抑制重复输出，并提供可选的奖励塑形以获得更平滑的 RL 信号。
泛化证据：表明经过 RL 训练的检查点不仅在训练任务上表现出色，还能迁移到未见过的开放问题上。

方法论

程序数据库 – 离线存储的候选程序（例如数学构造）集合。LLM 从该池中抽样作为每次试验的起点。
上下文提示 – 对于每个批次，模型收到的提示包括当前最佳解、最近的几次尝试以及问题定义。这让模型能够“推理”哪些方法有效、哪些无效。
批量采样 – ThetaEvolve 并行抽取大量候选，在 LLM 中同时处理，以提升吞吐量，而不是单一顺序搜索。
奖励计算 – 对每个生成的程序进行执行（或解析评估），计算数值奖励（例如更紧的包装密度）。
惰性惩罚 – 若一个批次产生重复或停滞的解，则在奖励上加上小额惩罚，推动模型产生新颖解。
测试时 RL 更新 – 使用轻量级的策略梯度算法（如 REINFORCE），在模型仍在提供推理服务时，将参数微调向产生更高奖励的动作倾斜。
可选奖励塑形 – 对噪声较大的任务，可提供平滑的奖励（例如移动平均基线），以降低方差。

整个循环反复运行，直至满足停止准则（时间预算或收敛），从而让模型在运行时“进化”自己的求解策略。

结果与发现

纪录界限：使用 8B 参数模型的 ThetaEvolve 在两个基准问题（圆形包装和首个自相关不等式）上超越了 AlphaEvolve 的最佳已知结果。
持续收益：在两种 LLM 和四个开放式任务上，加入 RL 的版本相较于纯推理基线在最终奖励上提升了 10‑30 %。
更快收敛：RL 训练的检查点在更少的迭代次数内达到了高质量解，表明模型已经内化了有用的启发式策略。
跨任务迁移：在一个问题上微调的检查点在其他未见过的问题上也表现出提升，暗示所学习的“进化”行为具有一定的通用性。

实际意义

成本效益研究：小型开源模型现在能够与庞大的专有模型集合竞争，降低学术界和工业界探索自动定理证明或组合优化的门槛。
持续改进服务：开发者可以将 ThetaEvolve 嵌入 SaaS 平台，使模型从用户提交的挑战中不断学习，提供日益优越的解答，而无需从头重新训练。
自动化设计流水线：芯片布局、材料包装或信号处理等领域常涉及开放式优化问题；ThetaEvolve 可作为即插即用的优化器，在部署期间自行调优。
开源生态：公开发布的代码和程序数据库邀请社区贡献，促进协作的“进化 AI”社区建设。

局限性与未来工作

可扩展性上限：虽然批量采样提升了吞吐量，但该方法仍依赖大量候选程序的执行，对计算成本高的评估可能成为瓶颈。
奖励噪声：对于目标噪声大或难以精确计算的问题，即使使用惰性惩罚和奖励塑形，RL 更新仍可能不稳定。
模型规模权衡：当前成功案例基于 8B 参数模型；尚不清楚该方法在更小模型或上百亿参数系统上的表现。
泛化范围：向完全不同领域（如符号积分）的迁移仍需系统性研究。未来工作可探索跨多问题族的元学习，并结合更复杂的探索策略（如好奇心驱动采样）。

ThetaEvolve 为开发者提供了一条实用路径，利用 LLM 的自适应能力解决开放式、数学密集型任务——将仅推理的模型转变为自我改进的问题求解者。

作者

王一平
苏少荣
曾志远
徐伊娃
任黎亮
杨欣宇
黄泽毅
何学海
马路遥
彭宝林
程浩
何鹏程
陈伟珠
王硕航
杜绍磊
沈业龙

论文信息

arXiv ID: 2511.23473v1
分类: cs.LG, cs.CL
发表时间: 2025 年 11 月 28 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

伊朗的中小企业（SMEs）日益利用Telegram进行销售，实时互动对转化至关重要。然而，dev...

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

Knowledge-enhanced text generation 旨在通过利用内部或外部知识源来提升生成文本的质量。虽然语言模型已经…

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文

本工作探讨了构建“能够记忆的机器”的挑战，将长期记忆框定为高效超长上下文建模的问题。W...

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

大规模视觉语言模型（LVLMs）在需要视觉信息的任务中展现出先进的能力，包括目标检测。这些能力……