[Paper] MemGovern：通过学习受管控的人类经验提升代码代理

发布: 1周前 (2026年1月11日 GMT+8 14:41)

7 min read

原文: arXiv

Source: arXiv - 2601.06789v1

概览

MemGovern 解决了当今自主软件工程（SWE）代理的一个核心盲点：它们在“封闭世界”中运行，忽视了像 GitHub 这样平台上大量公开可用的人类调试经验知识库。通过将原始问题跟踪数据转换为结构化、可搜索的“经验卡片”，MemGovern 为代理提供了真实世界修复的记忆，提升了它们在基准任务上的问题解决成功率。

关键贡献

Experience Governance Pipeline – 一种系统化方法，用于清洗、标准化并丰富原始 GitHub issue/PR 数据，将其转化为统一的 “experience card” 格式，供代理直接使用。
Agentic Experience Search – 基于逻辑的检索策略，使代理能够使用当前推理状态查询记忆，而不是仅依赖简单的关键词匹配。
Large‑Scale Memory Construction – 生成约 135 K 条受治理的 experience card，覆盖多种语言、库和错误类别。
Plug‑in Architecture – MemGovern 可作为插件附加到现有的代码生成或调试代理上，无需重新训练底层模型。
Empirical Gains – 与最先进的 SWE 代理集成后，使 SWE‑bench Verified 解决率提升 4.65 %，在竞争激烈的基准中实现显著跃升。

方法论

数据收集 – 从精选的流行 GitHub 仓库中抓取 issue、pull‑request 和讨论线程。
治理与标准化 – 应用一系列启发式规则和轻量级 NLP 模型，以 (a) 去除噪声（例如模板文本、日志），(b) 确定根本原因，(c) 提取具体修复（代码 diff 或命令），以及 (d) 为卡片打上语言、库和错误类型等元数据标签。
经验卡片创建 – 每张卡片存储简明描述、可操作的修复以及结构化标签，形成自包含的知识单元。
代理搜索引擎 – 当代理遇到 bug 时，首先生成逻辑查询（例如 “Java Stream API 中的 NullPointerException”）。搜索引擎将该查询与卡片的标签和语义嵌入匹配，返回最相关的经验。
记忆增强推理 – 代理将检索到的卡片纳入其 chain‑of‑thought 提示中，使其能够将人工提取的修复适配到当前代码库。

结果与发现

Resolution Rate Boost – 在 SWE‑bench Verified 套件中，基线代理解决了 X % 的任务；使用 MemGovern 后，成功率提升了 4.65 %（绝对值）。
Recall of Rare Bugs – 记忆帮助代理处理低频错误模式（例如，晦涩的库版本冲突），这些错误在之前往往被遗漏。
Low Overhead – 添加 MemGovern 只使推理延迟增加约 0.3 秒/查询，得益于对经验卡的高效索引。
Generalizability – 在 Python、JavaScript 和 Java 项目中的实验均显示出一致的改进，表明该方法具有语言无关性。

实际意义

更快的调试助手 – 开发者可以将 MemGovern 接入现有的 AI 配对编程工具（例如 GitHub Copilot、Tabnine），获取包含上下文的建议，这些建议反映真实的修复案例，而非通用模式。
降低模型训练成本 – 由于记忆是一个独立且可更新的知识库，团队可以保持代理的核心模型不变，同时不断用新的开源数据丰富经验卡片。
合规与审计 – 每张卡片都保留来源信息（仓库、issue URL、时间戳），使企业更容易追溯建议修复的来源，对安全审查非常有利。
本地知识库 – 企业可以部署私有的 MemGovern 实例，并导入内部工单系统（Jira、Azure DevOps）的数据，让代理访问专有的调试经验，而无需暴露代码。
提升 CI/CD 自动化 – 自动化代码审查机器人可以查询记忆库，为构建失败的情况提出补丁，从而缩短平均修复时间（MTTR）。

限制与未来工作

源数据噪声 – 尽管有治理步骤，仍有一些卡片包含模糊或不完整的修复，可能误导代理。
治理的可扩展性 – 当前流水线依赖启发式规则；将规模扩展到数百万个仓库可能需要更稳健的、可能是监督式的抽取模型。
领域特异性 – 高度专业化的领域（例如嵌入式系统）开源问题数据稀缺，限制了记忆的覆盖范围。
未来方向 – 作者计划 (1) 融入主动学习，让代理标记低质量卡片供人工审查，(2) 探索包含日志或截图的多模态卡片，(3) 评估长期维护策略，以使记忆随库的演进保持最新。

作者

Qihao Wang
Ziming Cheng
Shuo Zhang
Fan Liu
Rui Xu
Heng Lian
Kunyi Wang
Xiaoming Yu
Jianghao Yin
Sen Hu
Yue Hu
Shaolei Zhang
Yanbing Liu
Ronghao Chen
Huacan Wang

论文信息

arXiv ID: 2601.06789v1
类别: cs.SE, cs.AI
出版时间: 2026年1月11日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 解释在大型推理模型中是否具有泛化性？

大型推理模型（LRMs）在解决问题的过程中会生成文本形式的思考链（CoT），这是一种潜在的强大工具，用于……

[论文] 为 Gemini 构建生产就绪探针

前沿语言模型的能力正在快速提升。因此，我们需要更强有力的缓解措施，以防止恶意行为者滥用日益强大的系统。Prior w...

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

最近在3D形状生成方面的进展取得了令人印象深刻的成果，但大多数现有方法依赖于干净、未被遮挡且分割良好的输入。这种...

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理

在现有的1型糖尿病（T1D）管理数据集之间的碎片化和缺乏标准化限制了T1D算法开发的进展。Cur...