[Paper] FrontierCS：演化挑战与演化智能

发布: 1个月前 (2025年12月18日 GMT+8 02:52)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.15699v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文，并保持原有的格式、Markdown 语法以及技术术语不变。）

概述

FrontierCS 是一个全新的基准测试，旨在推动 AI 系统解决 开放式 的计算机科学问题——比如算法谜题和研究层面的设计任务，这类问题没有已知的最优答案。该基准并不是让模型给出单一的“正确”输出，而是要求模型编写可执行代码，以便能够自动评估其质量。作者认为，这更能反映真实世界的软件工程和研究挑战，并且他们展示了当前的推理模型仍远远不及人类专家的水平。

关键贡献

大规模、专家策划的基准：156 个多样化的计算机科学问题，涵盖经典算法挑战（许多 NP‑hard）和开放研究问题，全部由博士、竞技程序员和出题者审阅。
可执行程序评估：每个任务配有参考解答和自动评分器，实现客观、细粒度的部分进展度量。
可衡量进展的开放式设计：不同于静态 QA 基准，FrontierCS 让模型迭代并改进解答，同时仍提供明确的数值分数。
实证基线研究：在算法和研究两条轨道上评估多种最先进的推理模型（如 chain‑of‑thought LLM、代码生成模型），揭示出与人类表现的显著差距。
模型行为洞察：表明仅仅增加推理预算（更多计算或更长提示）并不能缩小性能差距；模型倾向于过度优化“可编译”代码，而非高质量算法。

方法论

问题筛选 – 作者们从竞技编程档案、开源研究项目和学术文献中收集了一批候选问题。每个问题都经过多位专家的审查，以确保：
- 没有已知的最优解（即问题确实是开放式的）。
- 具备明确定义、可自动检查的评分函数（例如，对隐藏测试用例的运行时间、系统设计的质量）。
参考解答与评分器 – 对于每个问题，人工专家编写了高质量的参考实现以及相应的评估脚本，返回数值评分（0–100）。
模型接口 – 模型通过接收自然语言的问题描述并返回代码文件（Python、C++ 等）与基准进行交互。提交的代码会在评估器上运行，以产生评分。
评估协议 – 实验使用了多个领先的代码生成模型（例如 GPT‑4‑code、Claude‑Sonnet、CodeLlama）。每个模型都被分配了固定的“推理预算”（最大 token 数、temperature、自我改进步骤数）。在算法轨道和研究轨道上汇总得分，以便与人类基线进行比较。

结果与发现

轨道	人类专家平均分	最佳 LLM 平均分	差距
算法类（NP‑难）	85 / 100	38 / 100	~47 分
研究级设计	78 / 100	31 / 100	~47 分

推理预算重要，但影响有限 – 将允许的 token 预算加倍或增加更多自我精炼循环，使分数提升约 5–7 分，仍远未弥合人与模型之间的差距。
代码正确性 vs. 算法质量 – 模型能够快速学会生成能够编译并通过简单测试用例的代码，但它们很少发现能够显著提升性能的复杂启发式或数据结构。
对“可运行”代码的过度优化 – 那些高度奖励任何可运行程序的评分函数导致模型倾向于采用低质量的解决方案，而不是探索更高分的算法思路。

实际意义

开发者工具 – FrontierCS 可以作为下一代 AI 配对编程员的严格测试套件，突出当前助手的不足之处（例如，设计算法效率、系统架构）。
研究基准 – 构建推理或规划模块的研究人员可以使用 FrontierCS 来衡量在硬计算机科学问题上的真实进展，而不是在合成问答任务上。
招聘与培训 – 公司可以采用 FrontierCS 的一部分问题来评估 AI 增强的编码流水线，或将初级工程师与 AI 基准进行对比。
指导模型设计 – 研究结果表明，未来的模型需要更强的算法推理和搜索能力，或许需要结合符号求解器或领域特定启发式方法，而不是仅仅依赖大规模语言建模。

Source: …

局限性与未来工作

领域覆盖 – 虽然 156 道题目种类丰富，但仍主要集中在典型的算法和系统设计领域；诸如量子计算或分布式机器学习流水线等新兴方向未被涵盖。
评分粒度 – 一些评估者仅依赖运行时间或简单的正确性指标，这可能无法捕捉代码可读性、可维护性或理论优雅性等细微特质。
人类基准定义 – 专家得分基于单一参考解答；其他高质量的解法可能会改变“人类上限”。
未来方向 – 作者计划将基准扩展至包含多智能体协作任务、更丰富的评估标准（例如能耗、内存占用），并引入基于强化学习的自我改进循环，使模型能够迭代优化其解答。

作者

Qiuyang Mang
Wenhao Chai
Zhifei Li
Huanzhi Mao
Shang Zhou
Alexander Du
Hanchen Li
Shu Liu
Edwin Chen
Yichuan Wang
Xieting Chu
Zerui Cheng
Yuan Xu
Tian Xia
Zirui Wang
Tianneng Shi
Jianzhu Yao
Yilong Zhao
Qizheng Zhang
Charlie Ruan
Zeyu Shen
Kaiyuan Liu
Runyuan He
Dong Xing
Zerui Li
Zirong Zeng
Yige Jiang
Lufeng Cheng
Ziyi Zhao
Youran Sun
Wesley Zheng
Meiyuwang Zhang
Ruyi Ji
Xuechang Tu
Zihan Zheng
Zexing Chen
Kangyang Zhou
Zhaozi Wang
Jingbang Chen
Aleksandra Korolova
Peter Henderson
Pramod Viswanath
Vijay Ganesh
Saining Xie
Zhuang Liu
Dawn Song
Sewon Min
Ion Stoica
Joseph E. Gonzalez
Jingbo Shang
Alvin Cheung

论文信息

arXiv ID: 2512.15699v1
分类: cs.LG, cs.SE
出版日期: 2025年12月17日
PDF: 下载 PDF

[Paper] FrontierCS：演化挑战与演化智能

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构