[论文] APEX-SWE

发布: 3周前 (2026年1月14日 GMT+8 02:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.08806v1

概述

本文介绍了 APEX‑SWE，一个新基准，要求前沿 AI 模型执行真正能带来业务价值的软件工程工作。该基准不再局限于狭窄的编码谜题，而是聚焦于两个真实的任务族——系统集成和生产级调试——以便开发者能够了解当前模型距离成为工作中有用助理的程度。

任务设计 – 工程师编写了真实场景（例如，“搭建一个 CI 流水线，将 Node.js API 部署到 GKE 并将指标暴露给 Prometheus”）。每个任务都附带一个规范（需求、可用 API）和一个用于评分的 真实解答。
提示协议 – 模型接收完整的任务描述以及任何相关的制品（YAML 代码片段、日志摘录）。它们仅被允许一次 “运行”（Pass@1）来生成代码、配置或调试方案。
评估工具 – 开源工具会自动创建一个沙盒环境（Docker + Terraform）来执行模型的输出，然后检查功能正确性（部署成功、错误已修复）并测量运行时成本。
评分 – Pass@1 是指模型首次尝试满足所有正确性标准的任务比例。其他指标（求解时间、API 调用预算）也会被记录以供后续分析。

模型（思考层级）	Pass@1（集成）	Pass@1（可观察性）	总体 Pass@1
Gemini 3 Pro (High)	28 %	22 %	25 %
GPT‑4o (Medium)	19 %	15 %	17 %
Claude 3 (Medium)	17 %	13 %	15 %
Llama‑2‑70B (Low)	9 %	7 %	8 %
… (other models)	…	…	…

Tooling for DevOps automation – APEX‑SWE 表明当前的 AI 助手已经能够起草 IaC 代码片段和 CI 流水线，但仍需要人工参与进行验证和处理边缘情况。将 LLM 嵌入到 “suggest‑then‑review” UI 中，可为有经验的工程师将样板工作减少约 15 % 。
Debug‑assist bots – 可观测性任务显示，LLM 能够从日志中提出合理的根因假设，但常常忽略细微的配置差异。将 LLM 与日志搜索引擎（例如 Elastic）以及置信阈值过滤步骤结合，可为值班工程师打造实用的 “first‑line” 调试器。
Cost‑aware deployment – 由于基准测试衡量了运行生成产物的实际计算成本，组织可以在大规模推广之前，对将 LLM 集成到 CI/CD 流水线的 ROI 进行基准评估。
Benchmark‑driven product roadmaps – 构建 AI 驱动开发者工具的公司现在拥有一个具体的、开放的基准，可用于跟踪进展并设定可衡量的目标（例如 “在 12 个月内实现集成任务的 Pass@1 达到 40 %”。）。

APEX‑SWE 基准及其开源评估框架现已公开，邀请社区扩展任务集、接入新模型，共同推动 AI 辅助软件工程迈向生产就绪。