[Paper] MemGovern:通过学习受管控的人类经验提升代码代理

发布: (2026年1月11日 GMT+8 14:41)
7 min read
原文: arXiv

Source: arXiv - 2601.06789v1

概览

MemGovern 解决了当今自主软件工程(SWE)代理的一个核心盲点:它们在“封闭世界”中运行,忽视了像 GitHub 这样平台上大量公开可用的人类调试经验知识库。通过将原始问题跟踪数据转换为结构化、可搜索的“经验卡片”,MemGovern 为代理提供了真实世界修复的记忆,提升了它们在基准任务上的问题解决成功率。

关键贡献

  • Experience Governance Pipeline – 一种系统化方法,用于清洗、标准化并丰富原始 GitHub issue/PR 数据,将其转化为统一的 “experience card” 格式,供代理直接使用。
  • Agentic Experience Search – 基于逻辑的检索策略,使代理能够使用当前推理状态查询记忆,而不是仅依赖简单的关键词匹配。
  • Large‑Scale Memory Construction – 生成约 135 K 条受治理的 experience card,覆盖多种语言、库和错误类别。
  • Plug‑in Architecture – MemGovern 可作为插件附加到现有的代码生成或调试代理上,无需重新训练底层模型。
  • Empirical Gains – 与最先进的 SWE 代理集成后,使 SWE‑bench Verified 解决率提升 4.65 %,在竞争激烈的基准中实现显著跃升。

方法论

  1. 数据收集 – 从精选的流行 GitHub 仓库中抓取 issue、pull‑request 和讨论线程。
  2. 治理与标准化 – 应用一系列启发式规则和轻量级 NLP 模型,以 (a) 去除噪声(例如模板文本、日志),(b) 确定根本原因,(c) 提取具体修复(代码 diff 或命令),以及 (d) 为卡片打上语言、库和错误类型等元数据标签。
  3. 经验卡片创建 – 每张卡片存储简明描述、可操作的修复以及结构化标签,形成自包含的知识单元。
  4. 代理搜索引擎 – 当代理遇到 bug 时,首先生成逻辑查询(例如 “Java Stream API 中的 NullPointerException”)。搜索引擎将该查询与卡片的标签和语义嵌入匹配,返回最相关的经验。
  5. 记忆增强推理 – 代理将检索到的卡片纳入其 chain‑of‑thought 提示中,使其能够将人工提取的修复适配到当前代码库。

结果与发现

  • Resolution Rate Boost – 在 SWE‑bench Verified 套件中,基线代理解决了 X % 的任务;使用 MemGovern 后,成功率提升了 4.65 %(绝对值)。
  • Recall of Rare Bugs – 记忆帮助代理处理低频错误模式(例如,晦涩的库版本冲突),这些错误在之前往往被遗漏。
  • Low Overhead – 添加 MemGovern 只使推理延迟增加约 0.3 秒/查询,得益于对经验卡的高效索引。
  • Generalizability – 在 Python、JavaScript 和 Java 项目中的实验均显示出一致的改进,表明该方法具有语言无关性。

实际意义

  • 更快的调试助手 – 开发者可以将 MemGovern 接入现有的 AI 配对编程工具(例如 GitHub Copilot、Tabnine),获取包含上下文的建议,这些建议反映真实的修复案例,而非通用模式。
  • 降低模型训练成本 – 由于记忆是一个独立且可更新的知识库,团队可以保持代理的核心模型不变,同时不断用新的开源数据丰富经验卡片。
  • 合规与审计 – 每张卡片都保留来源信息(仓库、issue URL、时间戳),使企业更容易追溯建议修复的来源,对安全审查非常有利。
  • 本地知识库 – 企业可以部署私有的 MemGovern 实例,并导入内部工单系统(Jira、Azure DevOps)的数据,让代理访问专有的调试经验,而无需暴露代码。
  • 提升 CI/CD 自动化 – 自动化代码审查机器人可以查询记忆库,为构建失败的情况提出补丁,从而缩短平均修复时间(MTTR)。

限制与未来工作

  • 源数据噪声 – 尽管有治理步骤,仍有一些卡片包含模糊或不完整的修复,可能误导代理。
  • 治理的可扩展性 – 当前流水线依赖启发式规则;将规模扩展到数百万个仓库可能需要更稳健的、可能是监督式的抽取模型。
  • 领域特异性 – 高度专业化的领域(例如嵌入式系统)开源问题数据稀缺,限制了记忆的覆盖范围。
  • 未来方向 – 作者计划 (1) 融入主动学习,让代理标记低质量卡片供人工审查,(2) 探索包含日志或截图的多模态卡片,(3) 评估长期维护策略,以使记忆随库的演进保持最新。

作者

  • Qihao Wang
  • Ziming Cheng
  • Shuo Zhang
  • Fan Liu
  • Rui Xu
  • Heng Lian
  • Kunyi Wang
  • Xiaoming Yu
  • Jianghao Yin
  • Sen Hu
  • Yue Hu
  • Shaolei Zhang
  • Yanbing Liu
  • Ronghao Chen
  • Huacan Wang

论文信息

  • arXiv ID: 2601.06789v1
  • 类别: cs.SE, cs.AI
  • 出版时间: 2026年1月11日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »