[Paper] 从 Agent Loops 到 Deterministic Graphs：Execution Lineage 用于 Reproducible AI-Native Work

发布: 3天前 (2026年5月7日 GMT+8 22:39)

9 分钟阅读

原文: arXiv

Source: arXiv - 2605.06365v1

请提供您希望翻译的具体文本内容（例如摘要、引言或其他章节），我将按照要求保留源链接、格式和技术术语，将其翻译成简体中文。

概述

大型语言模型（LLM）代理正日益被用作自主的“工作者”，它们能够推理、调用工具、存储记忆，并迭代地改进输出。虽然这些循环能够产生令人印象深刻的答案，但它们依赖的隐式对话状态使得工作难以可复现、难以隔离无关的更改，或可靠地传播更新。论文 “From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI‑Native Work” 提出了一个新的执行模型——execution lineage——将代理的整个工作流表示为一个有向无环图（DAG），其中每个生成制品的步骤都有明确的依赖关系和基于身份的重放。作者展示了，相比传统的循环中心更新，这种基于图的方式能够产生更稳定、更易维护的结果。

关键贡献

执行血统模型： 将 AI‑原生工作形式化为确定性计算的有向无环图（DAG），公开显式的数据依赖和稳定的中间产物。
基于身份的重放： 引入一种重放机制，仅在发生更改时重新执行受影响的节点，保持不相关的工作不变。
实证评估： 在受控的策略记忆更新任务上，将 DAG 重放与两种以循环为中心的基线进行基准比较，展示零 churn 和完美的上游/下游保持。
状态质量 vs. 答案质量洞察： 表明高质量的最终答案可能掩盖底层状态中的隐藏不一致，而 DAG 重放能够消除这些问题。
实用蓝图： 提供设计模式和实现提示，以将执行血统集成到现有的 LLM‑agent 框架中。

方法论

工作流图构建 – 作者对典型的 LLM‑agent 循环（reason → tool → memory → refine）进行仪器化，以产生 artifact nodes（例如生成的政策草案、工具调用结果）。每个节点记录唯一标识符和输入标识符列表，形成有向无环图（DAG）。
确定性执行 – 节点以纯粹、无副作用的方式执行；任何非确定性（例如 temperature 采样）要么被固定，要么作为节点状态的一部分被捕获。
重放引擎 – 当用户编辑中间产物（例如添加新约束）时，引擎仅重新计算依赖于编辑节点的下游节点，对其他节点使用缓存结果。
基线比较 – 实现了两种以循环为中心的基线：(a) 全量再生成（从头重新运行整个 agent）和 (b) 部分再生成（从编辑点重新运行，但不进行显式依赖追踪）。
度量指标 – 本研究衡量 churn（意外改变的产物数量）、contamination（引入不相关上下文）以及 cross‑artifact consistency（编辑后相关产物是否保持一致）。

结果与发现

场景	DAG 重放	完整再生成	部分再生成
无关分支更新（编辑与当前分支无关的备忘录）	0% churn，0% contamination – 最终备忘录未改变	78% 的运行导入了无关上下文	45% 的运行导入了无关上下文
中间制品编辑（添加新的政策约束）	所有下游制品精确更新，上游制品保持不变，完美一致性	更新了最终备忘录，但也修改了无关的上游制品	更新了最终备忘录，但在相关制品之间出现了偶发的不匹配
整体答案质量	在首次运行时与基线相当；由于状态稳定，后续修订表现更佳	首次运行时略高（当所有上下文都能放入提示中）	首次运行时与 DAG 相似，后续修订中性能下降

Takeaway: 基于 DAG 的执行血统确保工作流中只有预期的部分会发生变化，消除在迭代修订中可能累积的隐藏状态漂移。虽然强大的循环基线仍能为单次任务产生精致的最终输出，但它们缺乏对长期运行的 AI 原生项目至关重要的可复现性保证。

实际意义

版本控制的 AI 工作流: 开发者可以将每个产物视为版本控制系统中的一次提交，从而实现差异比较、回滚以及对 LLM 生成内容的协作编辑。
工具集成流水线: 当 LLM 代理编排外部 API（例如，代码生成 → 编译 → 测试）时，执行血缘确保对测试套件的更改只会重新运行相关的编译步骤，从而节省计算资源并降低延迟。
监管与审计需求: 需要可追溯性的行业（金融、医疗、法律）现在可以为每一次 AI 产生的决策提供确定性的来源图，以满足合规审计。
持续改进循环: 团队可以安全地尝试新提示、模型升级或约束添加，而无需担心无关的产物被意外更改。
调试与可解释性: 有向无环图使得定位哪个节点引入了错误或不良偏差变得轻而易举，因为每个输出都关联到特定的输入集合和模型调用。

限制与未来工作

确定性假设： 该方法依赖于固定随机性（例如 temperature = 0）或捕获随机种子；真正的非确定性模型仍可能产生分歧的产物。
图规模的可扩展性： 非常大的代理工作流可能生成庞大的有向无环图（DAG）；论文指出需要进行剪枝、摘要或层次化图抽象。
集成开销： 现有的 LLM‑agent 框架需要大量的仪器化以输出工件节点并管理标识符，这可能成为快速原型开发的障碍。
超出政策备忘录任务的泛化能力： 评估聚焦于受控的政策备忘录更新；更广泛的领域（例如多模态生成、长篇写作）仍需测试。
未来方向： 作者建议探索将 DAG 血统与选择性循环执行相结合的混合模型、自动依赖推断以及用于在 IDE 中可视化执行图的工具。

作者

Josh Rosen
Seth Rosen

论文信息

arXiv ID: 2605.06365v1
分类: cs.AI, cs.MA, cs.SE
出版日期: 2026年5月7日
PDF: 下载 PDF

[Paper] 从 Agent Loops 到 Deterministic Graphs：Execution Lineage 用于 Reproducible AI-Native Work

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择