[Paper] SWE-Bench Mobile：大型语言模型代理能开发行业级移动应用吗？

发布: 3天前 (2026年2月10日 GMT+8 16:51)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.09540v1

概览

本文介绍了 SWE‑Bench Mobile，这是一项新基准，用于在真实的、生产级 iOS 开发任务中考验大型语言模型（LLM）编码代理。通过使用真实的产品需求文档（PRDs）、Figma UI 设计以及混合的 Swift/Objective‑C 代码库，作者展示了当前代理在交付业界水平移动应用方面的差距。

关键贡献

首个移动应用基准，将多模态输入（文本规格 + 设计稿）与大型真实 iOS 代码库及完整测试套件相结合。
对 22 种代理模型配置的全面评估，涵盖四种编码代理（三种商业：Cursor、Codex、Claude Code；一种开源：OpenCode）。
实证发现：表现最好的代理仅能解决 12 % 的任务，揭示了研究原型与生产需求之间的巨大差距。
深入的消融研究显示：
1. 代理架构的重要性与底层大模型同等（性能差异最高可达 6 倍）。
2. 商业代理始终优于开源替代方案。
3. 简单的 “防御式编程” 提示比更复杂的提示工程提升 7.4 %。
公开托管的基准平台 – https://swebenchmobile.com – 可防止数据泄漏，并提供排行榜和可复现研究的工具包。

方法论

任务收集 – 作者挖掘了一个在生产中使用的成熟 iOS 项目，提取了 100 多个特性级任务，涵盖新功能实现、UI 集成和 bug 修复。
多模态规范 – 每个任务都配有文本 PRD 和相应的 Figma 设计文件，模拟了行业中开发者获取需求的方式。
代理配置 – 构建了四个不同的代理，每个代理封装了不同的 LLM（例如基于 GPT‑4、Claude）。对于每个代理，作者尝试了多种提示风格（防御式编程、链式思考等）和工具使用设置（例如代码搜索、测试执行）。
评估流水线 – 代理生成代码补丁，这些补丁会自动应用到代码库并在完整的测试套件上运行。成功的衡量标准是通过所有相关测试并满足规范要求。
指标与分析 – 记录了成功率、完成时间和提示效率。消融实验用于分离代理设计、模型规模和提示策略的影响。

结果与发现

整体成功率：表现最好的配置（使用防御性编程提示的商业代理）仅解决了 12 % 的任务。
代理 vs. 模型：相同的 LLM 在不同的代理框架（例如，它如何编排搜索、测试运行和迭代）下，成功率差异最高可达 6×。
商业 vs. 开源：商业代理（Cursor、Codex、Claude Code）始终优于开源的 OpenCode 基线，平均差距约为 4 %。
提示重要性：简单的防御性编程提示（鼓励模型编写安全、测试驱动的代码）比更复杂的链式思考或“角色扮演”提示提升了 7.4 % 的绝对成功率。
失败模式：大多数错误源于误解 UI 设计约束、错误使用 Objective‑C/Swift 互操作以及对异步 API 处理不足——这些问题在合成基准中很少被捕获。

实际意义

工具供应商 – 明显的性能差距表明当前基于 LLM 的 IDE 助手尚未准备好用于端到端的移动功能交付。供应商应投入更紧密的设计资产集成（如 Figma API）以及稳健的测试驱动生成循环。
开发团队 – 团队可以使用 SWE‑Bench Mobile 对内部编码助手进行 sanity check，确保在用于生产工作前其可靠性。基准测试的“防御式编程”提示风格投入低、收益高，可立即采用。
开源社区 – 开源的 OpenCode 基线凸显了社区驱动改进的机会（例如，更好的 Swift/Objective‑C 分词、针对 iOS SDK 文档的专门检索）。
招聘与技能评估 – 招聘人员可以使用该基准测试评估候选人与 LLM 代理协作的能力，作为传统编码面试的补充。
未来产品路线图 – 构建 “AI‑first” 开发平台的公司现在拥有具体的数据点（成功率、失败类别），可据此优先考虑多模态设计导入、自动化 UI 测试以及跨语言代码合成等功能。

限制与未来工作

范围仅限于 iOS – 虽然该基准在 Swift/Objective‑C 上非常全面，但结果可能无法直接迁移到 Android 或跨平台框架。
静态测试套件 – 评估依赖预先编写的单元/UI 测试；实际 QA 常常涉及探索性测试，而当前的代理无法模拟。
提示工程空间 – 仅探索了少数几种提示风格；更复杂的元提示或基于强化学习的提示优化可能带来更高的成功率。
模型访问限制 – 某些商业代理通过黑盒 API 进行评估，限制了对内部模型行为的洞察。未来的工作可以开放更透明的模型检查点，以进行更深入的分析。

作者邀请社区通过托管的基准贡献新的任务、代理和提示思路，旨在加速从“代码建议”到真正自主的移动应用开发的进程。

作者

Muxin Tian
Zhe Wang
Blair Yang
Zhenwei Tang
Kunlun Zhu
Honghua Dong
Hanchen Li
Xinni Xie
Guangjing Wang
Jiaxuan You

论文信息

arXiv ID: 2602.09540v1
分类: cs.SE
出版日期: 2026年2月10日
PDF: 下载 PDF

[Paper] SWE-Bench Mobile：大型语言模型代理能开发行业级移动应用吗？

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 使用大语言模型进行IoT网络未知攻击检测：一种鲁棒且数据高效的方法

[Paper] PPTAM$η$: 能源感知 CI/CD 流水线用于基于容器的应用

[Paper] Performance Antipatterns：天使还是恶魔？功耗

[Paper] 通过手动和自动代码审查推荐的质量改进研究