[Paper] SWE-chat：真实用户在真实环境中的编码代理交互

发布: 2天前 (2026年4月23日 GMT+8 01:08)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.20779v1

Overview

本文介绍了 SWE‑chat，这是首个大规模、持续更新的真实开发者与 AI 编码助手交互数据集。通过从公共代码库直接收集数千个开源会话，作者为社区提供了关于这些助手实际使用情况以及仍然存在的不足的具体证据。

数据收集管道 – 作者构建了一个爬虫，持续监控公共 GitHub 仓库中符合 AI 助手日志典型结构的文件（例如 *.swechat.json）。
会话重建 – 将原始日志解析为逐轮对话，将每个用户提示与随后代理的工具调用（如 search、edit、run）关联起来。
作者标记 – 通过追踪每一轮生成的差异，系统将每一行新增代码标记为 human‑authored（人工编写）或 agent‑authored（代理生成）。
静态分析 – 将所有提交的代码通过安全扫描器（例如 CodeQL）进行检查，以比较人工编写和 AI 编写代码片段的漏洞率。
统计分析 – 团队计算会话长度、工具调用频率以及“存活”率（AI 生成代码最终进入最终提交的频率）的分布。

该管道是开源的，因此随着更多开发者采用 AI 助手，数据集可以持续增长。

指标	观察
会话编码风格	41 % 的会话是“vibe coding”（代理几乎编写了所有提交的代码）；23 % 完全由人工编写。
代码存活率	只有 44 % 的 AI 生成代码行能够存活到最终提交；其余的被编辑或丢弃。
安全性	AI 编写的代码表现出更高的漏洞密度（约为人工代码的 1.8 倍每行代码的问题数）。
开发者抵制	在 44 % 的对话回合中，开发者会介入——通过纠正、报告错误或中止代理的建议。
工具调用量	代理平均每个会话进行 ≈ 60 次工具调用，表明对外部操作（搜索、测试、重构）的高度依赖。

这些数字描绘出一个微妙的图景：虽然 AI 助手能够在许多项目中主导工作，但它们仍然远未实现自主，开发者需要投入大量精力来筛选输出。

作者计划将 SWE‑chat 扩展到更多语言，加入运行时性能数据，并开放排行榜用于真实场景下的代理评估。