[Paper] SWE-Bench Mobile:大型语言模型代理能开发行业级移动应用吗?
发布: (2026年2月10日 GMT+8 16:51)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.09540v1
概览
本文介绍了 SWE‑Bench Mobile,这是一项新基准,用于在真实的、生产级 iOS 开发任务中考验大型语言模型(LLM)编码代理。通过使用真实的产品需求文档(PRDs)、Figma UI 设计以及混合的 Swift/Objective‑C 代码库,作者展示了当前代理在交付业界水平移动应用方面的差距。
关键贡献
- 首个移动应用基准,将多模态输入(文本规格 + 设计稿)与大型真实 iOS 代码库及完整测试套件相结合。
- 对 22 种代理模型配置的全面评估,涵盖四种编码代理(三种商业:Cursor、Codex、Claude Code;一种开源:OpenCode)。
- 实证发现:表现最好的代理仅能解决 12 % 的任务,揭示了研究原型与生产需求之间的巨大差距。
- 深入的消融研究显示:
- 代理架构的重要性与底层大模型同等(性能差异最高可达 6 倍)。
- 商业代理始终优于开源替代方案。
- 简单的 “防御式编程” 提示比更复杂的提示工程提升 7.4 %。
- 公开托管的基准平台 – https://swebenchmobile.com – 可防止数据泄漏,并提供排行榜和可复现研究的工具包。
方法论
- 任务收集 – 作者挖掘了一个在生产中使用的成熟 iOS 项目,提取了 100 多个特性级任务,涵盖新功能实现、UI 集成和 bug 修复。
- 多模态规范 – 每个任务都配有文本 PRD 和相应的 Figma 设计文件,模拟了行业中开发者获取需求的方式。
- 代理配置 – 构建了四个不同的代理,每个代理封装了不同的 LLM(例如基于 GPT‑4、Claude)。对于每个代理,作者尝试了多种提示风格(防御式编程、链式思考等)和工具使用设置(例如代码搜索、测试执行)。
- 评估流水线 – 代理生成代码补丁,这些补丁会自动应用到代码库并在完整的测试套件上运行。成功的衡量标准是通过所有相关测试并满足规范要求。
- 指标与分析 – 记录了成功率、完成时间和提示效率。消融实验用于分离代理设计、模型规模和提示策略的影响。
结果与发现
- 整体成功率:表现最好的配置(使用防御性编程提示的商业代理)仅解决了 12 % 的任务。
- 代理 vs. 模型:相同的 LLM 在不同的代理框架(例如,它如何编排搜索、测试运行和迭代)下,成功率差异最高可达 6×。
- 商业 vs. 开源:商业代理(Cursor、Codex、Claude Code)始终优于开源的 OpenCode 基线,平均差距约为 4 %。
- 提示重要性:简单的防御性编程提示(鼓励模型编写安全、测试驱动的代码)比更复杂的链式思考或“角色扮演”提示提升了 7.4 % 的绝对成功率。
- 失败模式:大多数错误源于误解 UI 设计约束、错误使用 Objective‑C/Swift 互操作以及对异步 API 处理不足——这些问题在合成基准中很少被捕获。
实际意义
- 工具供应商 – 明显的性能差距表明当前基于 LLM 的 IDE 助手尚未准备好用于端到端的移动功能交付。供应商应投入更紧密的设计资产集成(如 Figma API)以及稳健的测试驱动生成循环。
- 开发团队 – 团队可以使用 SWE‑Bench Mobile 对内部编码助手进行 sanity check,确保在用于生产工作前其可靠性。基准测试的“防御式编程”提示风格投入低、收益高,可立即采用。
- 开源社区 – 开源的 OpenCode 基线凸显了社区驱动改进的机会(例如,更好的 Swift/Objective‑C 分词、针对 iOS SDK 文档的专门检索)。
- 招聘与技能评估 – 招聘人员可以使用该基准测试评估候选人与 LLM 代理协作的能力,作为传统编码面试的补充。
- 未来产品路线图 – 构建 “AI‑first” 开发平台的公司现在拥有具体的数据点(成功率、失败类别),可据此优先考虑多模态设计导入、自动化 UI 测试以及跨语言代码合成等功能。
限制与未来工作
- 范围仅限于 iOS – 虽然该基准在 Swift/Objective‑C 上非常全面,但结果可能无法直接迁移到 Android 或跨平台框架。
- 静态测试套件 – 评估依赖预先编写的单元/UI 测试;实际 QA 常常涉及探索性测试,而当前的代理无法模拟。
- 提示工程空间 – 仅探索了少数几种提示风格;更复杂的元提示或基于强化学习的提示优化可能带来更高的成功率。
- 模型访问限制 – 某些商业代理通过黑盒 API 进行评估,限制了对内部模型行为的洞察。未来的工作可以开放更透明的模型检查点,以进行更深入的分析。
作者邀请社区通过托管的基准贡献新的任务、代理和提示思路,旨在加速从“代码建议”到真正自主的移动应用开发的进程。
作者
- Muxin Tian
- Zhe Wang
- Blair Yang
- Zhenwei Tang
- Kunlun Zhu
- Honghua Dong
- Hanchen Li
- Xinni Xie
- Guangjing Wang
- Jiaxuan You
论文信息
- arXiv ID: 2602.09540v1
- 分类: cs.SE
- 出版日期: 2026年2月10日
- PDF: 下载 PDF