[Paper] 从 Agent Loops 到 Deterministic Graphs:Execution Lineage 用于 Reproducible AI-Native Work

发布: (2026年5月7日 GMT+8 22:39)
9 分钟阅读
原文: arXiv

Source: arXiv - 2605.06365v1

请提供您希望翻译的具体文本内容(例如摘要、引言或其他章节),我将按照要求保留源链接、格式和技术术语,将其翻译成简体中文。

概述

大型语言模型(LLM)代理正日益被用作自主的“工作者”,它们能够推理、调用工具、存储记忆,并迭代地改进输出。虽然这些循环能够产生令人印象深刻的答案,但它们依赖的隐式对话状态使得工作难以可复现、难以隔离无关的更改,或可靠地传播更新。论文 “From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI‑Native Work” 提出了一个新的执行模型——execution lineage——将代理的整个工作流表示为一个有向无环图(DAG),其中每个生成制品的步骤都有明确的依赖关系和基于身份的重放。作者展示了,相比传统的循环中心更新,这种基于图的方式能够产生更稳定、更易维护的结果。

关键贡献

  • 执行血统模型: 将 AI‑原生工作形式化为确定性计算的有向无环图(DAG),公开显式的数据依赖和稳定的中间产物。
  • 基于身份的重放: 引入一种重放机制,仅在发生更改时重新执行受影响的节点,保持不相关的工作不变。
  • 实证评估: 在受控的策略记忆更新任务上,将 DAG 重放与两种以循环为中心的基线进行基准比较,展示零 churn 和完美的上游/下游保持。
  • 状态质量 vs. 答案质量洞察: 表明高质量的最终答案可能掩盖底层状态中的隐藏不一致,而 DAG 重放能够消除这些问题。
  • 实用蓝图: 提供设计模式和实现提示,以将执行血统集成到现有的 LLM‑agent 框架中。

方法论

  1. 工作流图构建 – 作者对典型的 LLM‑agent 循环(reason → tool → memory → refine)进行仪器化,以产生 artifact nodes(例如生成的政策草案、工具调用结果)。每个节点记录唯一标识符和输入标识符列表,形成有向无环图(DAG)。
  2. 确定性执行 – 节点以纯粹、无副作用的方式执行;任何非确定性(例如 temperature 采样)要么被固定,要么作为节点状态的一部分被捕获。
  3. 重放引擎 – 当用户编辑中间产物(例如添加新约束)时,引擎仅重新计算依赖于编辑节点的下游节点,对其他节点使用缓存结果。
  4. 基线比较 – 实现了两种以循环为中心的基线:(a) 全量再生成(从头重新运行整个 agent)和 (b) 部分再生成(从编辑点重新运行,但不进行显式依赖追踪)。
  5. 度量指标 – 本研究衡量 churn(意外改变的产物数量)、contamination(引入不相关上下文)以及 cross‑artifact consistency(编辑后相关产物是否保持一致)。

结果与发现

场景DAG 重放完整再生成部分再生成
无关分支更新(编辑与当前分支无关的备忘录)0% churn0% contamination – 最终备忘录未改变78% 的运行导入了无关上下文45% 的运行导入了无关上下文
中间制品编辑(添加新的政策约束)所有下游制品精确更新,上游制品保持不变,完美一致性更新了最终备忘录,但也修改了无关的上游制品更新了最终备忘录,但在相关制品之间出现了偶发的不匹配
整体答案质量在首次运行时与基线相当;由于状态稳定,后续修订表现更佳首次运行时略高(当所有上下文都能放入提示中)首次运行时与 DAG 相似,后续修订中性能下降

Takeaway: 基于 DAG 的执行血统确保工作流中只有预期的部分会发生变化,消除在迭代修订中可能累积的隐藏状态漂移。虽然强大的循环基线仍能为单次任务产生精致的最终输出,但它们缺乏对长期运行的 AI 原生项目至关重要的可复现性保证。

实际意义

  • 版本控制的 AI 工作流: 开发者可以将每个产物视为版本控制系统中的一次提交,从而实现差异比较、回滚以及对 LLM 生成内容的协作编辑。
  • 工具集成流水线: 当 LLM 代理编排外部 API(例如,代码生成 → 编译 → 测试)时,执行血缘确保对测试套件的更改只会重新运行相关的编译步骤,从而节省计算资源并降低延迟。
  • 监管与审计需求: 需要可追溯性的行业(金融、医疗、法律)现在可以为每一次 AI 产生的决策提供确定性的来源图,以满足合规审计。
  • 持续改进循环: 团队可以安全地尝试新提示、模型升级或约束添加,而无需担心无关的产物被意外更改。
  • 调试与可解释性: 有向无环图使得定位哪个节点引入了错误或不良偏差变得轻而易举,因为每个输出都关联到特定的输入集合和模型调用。

限制与未来工作

  • 确定性假设: 该方法依赖于固定随机性(例如 temperature = 0)或捕获随机种子;真正的非确定性模型仍可能产生分歧的产物。
  • 图规模的可扩展性: 非常大的代理工作流可能生成庞大的有向无环图(DAG);论文指出需要进行剪枝、摘要或层次化图抽象。
  • 集成开销: 现有的 LLM‑agent 框架需要大量的仪器化以输出工件节点并管理标识符,这可能成为快速原型开发的障碍。
  • 超出政策备忘录任务的泛化能力: 评估聚焦于受控的政策备忘录更新;更广泛的领域(例如多模态生成、长篇写作)仍需测试。
  • 未来方向: 作者建议探索将 DAG 血统与选择性循环执行相结合的混合模型、自动依赖推断以及用于在 IDE 中可视化执行图的工具。

作者

  • Josh Rosen
  • Seth Rosen

论文信息

  • arXiv ID: 2605.06365v1
  • 分类: cs.AI, cs.MA, cs.SE
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »