[Paper] CodeMEM：AST 引导的自适应记忆用于仓库级迭代代码生成

发布: 1个月前 (2026年1月6日 GMT+8 17:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.02868v1

概览

本文介绍了 CodeMEM，一种新颖的内存管理层，使大型语言模型（LLM）能够在多轮、仓库级别的编码会话中跟踪代码库的演变状态。通过将仓库表示为抽象语法树（AST），并利用该结构指导模型记忆的内容，CodeMEM 大幅降低了“遗忘”现象，并减少了获得正确代码所需的交互轮数。

AST 引导的代码上下文记忆 – 一个动态存储，在每次 LLM 编辑后更新仓库的结构表示，确保模型始终使用最新的代码视图。
代码会话记忆 – 基于 AST 差异而非原始文本构建的以代码为中心的完整交互日志，能够精确检测遗忘信息。
通过 AST 分析进行遗忘缓解 – 自动检查，当先前已解决的问题再次出现时标记出来，提示模型检索相关上下文。
最先进的结果 在两个基准（CodeIF‑Bench 和 CoderEval）上显示出 >12 % 的指令遵循准确率提升，并将每任务的交互轮数减少 2–3 次。
注重效率的设计 – 尽管表示更丰富，但推理延迟和 token 使用量与现有记忆方法相当。

AST Extraction – 将仓库的源文件解析为抽象语法树（AST），提供一种语言无关的层次化代码元素视图（函数、类、导入等）。
Code Context Memory (CCM) – 在每次 LLM 生成的编辑之后，系统重新解析被修改的文件，将新的 AST 片段与现有的 CCM 合并，并为每个节点标记一个“新鲜度”时间戳。
Code Session Memory (CSM) – 将每一轮的提示、模型输出以及产生的 AST 差异存储为紧凑的结构化记录。CSM 并不是一长串聊天记录，而是保存了一系列 AST 变更操作。
Forgetting Detection – 在生成下一轮之前，模型查询 CSM，检查是否有先前已修复的 AST 节点被意外修改。如果发现此类情况，会在提示中注入提醒。
Prompt Construction – LLM 接收混合提示：(a) 简短的自然语言摘要，(b) 当前 AST（或相关子树）的序列化片段，(c) 任何遗忘警报。这样既能保持低 token 消耗，又能保留关键的结构化上下文。

该流水线以迭代方式运行：LLM → AST 差异 → 内存更新 → 下一轮提示，实现代码更改的“持续集成”，而无需每次都重新读取整个仓库。

基准	指标	基线（无记忆）	CodeMEM	Δ
CodeIF‑Bench（指令遵循，当前回合）	准确率	68.4 %	80.6 %	+12.2 %
CodeIF‑Bench（会话层面）	准确率	61.1 %	72.6 %	+11.5 %
CoderEval（代码生成）	Pass@1	45.3 %	48.9 %	+3.6 %
交互轮数（平均）	–	7.4	5.1	–2.3
推理延迟（ms）	–	210	225	≈ +7 %
每会话令牌数	–	3,200	3,150	–50

关键要点

IDE plugins & Copilot‑style assistants can embed CodeMEM to keep a live AST snapshot, allowing the assistant to suggest edits that respect the whole project’s structure.
可以嵌入 CodeMEM 以保持实时的 AST 快照，使助手能够提出尊重整个项目结构的编辑建议。
CI/CD automation: Automated code reviewers can use the memory layer to remember past linting or security findings across multiple PRs, reducing duplicate warnings.
自动化代码审查员可以使用记忆层在多个 PR 之间记住过去的 lint 或安全发现，从而减少重复警告。
On‑prem LLM deployments: Enterprises can achieve better code generation quality without inflating compute costs, as the memory updates are lightweight AST diffs.
企业可以在不增加计算成本的情况下实现更高质量的代码生成，因为记忆更新是轻量级的 AST 差分。
Cross‑language support: Because ASTs are language‑agnostic, the same memory engine can serve polyglot repositories (e.g., a micro‑service suite with Python, Go, and TypeScript).
由于 AST 与语言无关，同一记忆引擎可以服务于多语言代码库（例如包含 Python、Go 和 TypeScript 的微服务套件）。
Reduced hallucinations: By grounding the model in concrete syntax trees, the system curtails the tendency of LLMs to fabricate non‑existent APIs or variables.
通过将模型基于具体的语法树，系统抑制了 LLM 编造不存在的 API 或变量的倾向。

总体而言，CodeMEM 证明了为 LLM 提供代码的“结构化记忆”能够使迭代式、仓库级别的代码生成更加可靠且更具开发者友好性。