[Paper] 我们能在执行机器学习代理之前进行预测吗？

发布: 1个月前 (2026年1月10日 GMT+8 00:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.05930v1

Source: …

概述

本文解决了自主机器学习代理中的一个根本瓶颈：它们必须在真实世界中执行每一个假设，才能学习该假设是否有效，这使得整个循环既缓慢又成本高昂。通过训练大型语言模型（LLM）预测实验结果（基于已验证的数据分析报告），作者用即时推理取代了许多昂贵的执行，从而在不牺牲准确性的前提下实现了显著的加速。

以数据为中心的解决方案偏好形式化： 定义了一项新的预测任务，要求代理在任何实际执行之前选择两个候选解决方案中更好的一个。
大规模基准： 整理了 18,438 对成对解决方案比较的语料库，每对都标注了来源于真实执行的真实偏好。
预测‑然后‑验证框架（FOREAGENT）： 引入了一个代理循环，首先使用大语言模型（LLM）预测首选方案，然后仅执行排名最高的候选方案进行验证。
实证验证： 表明在提供 已验证数据分析报告 的情况下，LLM 能达到 61.5 % 的准确率（远高于随机水平），且置信分数校准良好。
性能提升： FOREAGENT 的收敛速度比传统的生成‑执行‑反馈流水线快 约 6 倍，并在最终解决方案质量上比纯执行基线提升 +6 %。

数据收集与标注
- 作者收集了一套多样的科学和工程任务，其中代理会提出多个解决方案候选（例如实验方案、算法微调）。
- 对于每个任务，他们在真实环境中执行这两个候选方案，记录结果，并标记出哪个候选更优，从而生成成对比较数据集。
预测的提示工程
- 每一次比较都会连同 已验证的数据分析报告（即先前执行所收集数据的简要摘要）一起呈现给 LLM。
- 提示要求模型预测哪个候选表现更好，返回二元选择及置信度分数。
训练与校准
- 不需要微调；作者依赖 上下文学习（in‑context learning）并提供少量示例。
- 他们使用 temperature scaling 和 Platt scaling 将模型的置信度与实际成功率对齐。
FOREAGENT 循环
- 预测： 使用 LLM 对所有生成的候选进行排序。
- 执行‑验证： 只运行排名最高的候选（若置信度低则运行少量子集）。
- 反馈： 将新的执行结果纳入数据分析报告，以供下一轮迭代使用。

指标	仅预测 (LLM)	仅执行基线	FOREAGENT（预测‑后‑验证）
准确率（倾向于更好解）	61.5 %	50 %（随机）	68 %（验证后）
置信度校准 (ECE)	0.07	不适用	0.05
收敛速度（达到目标质量的迭代次数）	不适用	30	≈5
最终解质量（相对提升）	不适用	0 %	+6 %

作者承诺即将发布代码和数据集，请关注仓库以获取动手实验并将其潜在集成到您自己的自主代理流水线中。