[Paper] InfiAgent:面向通用自主代理的无限时域框架

发布: (2026年1月7日 GMT+8 01:35)
8 min read
原文: arXiv

Source: arXiv - 2601.03204v1

概述

本文介绍了 InfiAgent,一个新框架,使大语言模型(LLM)代理能够处理跨多步的任务,而不会导致内部上下文窗口膨胀。通过将代理的“记忆”从提示中移至轻量级、基于文件的状态存储,InfiAgent 能保持提示大小恒定,同时仍保留代理迄今为止学到的所有信息。作者展示,即使是 20 B 的开源模型,也能在长期运行的研究助理任务中与更大规模的专有系统竞争。

关键贡献

  • State externalization: 一个以文件为中心的抽象,将代理的持久状态存储在 LLM 提示之外,确保无论任务多长都能保持有界上下文。
  • Workspace snapshot + sliding window: 在每一步推理时,模型接收 (1) 当前工作区状态的简洁快照以及 (2) 最近若干动作的固定大小窗口,从而实现稳定推理,避免上下文溢出。
  • Task‑agnostic design: 无需针对特定任务进行微调;同一框架即可用于文献综述、多步骤研究流水线等多种长时程问题。
  • Empirical validation: 在 DeepResearch 套件和 80 篇文献综述基准上的实验表明,尽管模型规模更小且为开源,但在长时程任务上的覆盖率显著更高,性能与更大、闭源的代理相竞争。
  • Open‑source release: 完整实现、提示词和评估脚本已在 GitHub 上公开,鼓励社区进行扩展。

方法论

  1. 状态表示 – 代理的知识(例如,收集的事实、中间结果、工具输出)被序列化为一组 JSON/YAML 文件,构成 工作区
  2. 快照生成 – 在每次调用 LLM 之前,系统会创建一个 快照:工作区的精炼视图(例如,关键变量、过去操作的摘要)。该快照刻意保持很小(几百个 token)。
  3. 动作窗口 – 最近的 k 个动作(默认 = 5)会附加到提示中,为模型提供短期上下文以保持连续性。
  4. LLM 调用 – 提示由以下部分组成:系统指令、快照、动作窗口以及任务特定查询。LLM 生成下一个动作(例如,“运行工具 X”、 “存储 Y”、 “请求澄清”)。
  5. 状态更新 – 所选动作会更新工作区文件,循环重复。由于工作区位于磁盘上,其大小可以任意增长,而不会影响提示长度。

这种方法故意保持简单:它依赖标准文件 I/O,不需要自定义神经记忆模块,因而易于集成到现有的 LLM‑as‑a‑service 流水线中。

结果与发现

基准模型(InfiAgent)基线(上下文中心)相对表现
DeepResearch(多步骤研究)20 B 开源 LLM + InfiAgent13 B LLM 仅使用滑动窗口+12 % 任务成功率,+30 % 步骤覆盖率
80篇论文文献综述20 B LLM + InfiAgent专有 70 B 代理(无状态外部化)可比的 F1/召回率,但 失败前的时间跨度是原来的 2 倍

关键观察

  • 稳定的长时程行为: InfiAgent 在多达 50 步推理时成功率保持在 >90 %,而仅使用上下文的基线在约 15 步后急剧下降。
  • 无需微调: 同一提示模板即可在两个基准上使用,验证了状态外部化思路的通用性。
  • 资源效率: 通过将提示控制在 2 k token 以下,推理延迟与基线模型相当,尽管增加了文件 I/O。

实际意义

  • 可扩展的自主助手: 开发者可以构建管理复杂工作流的代理,例如多阶段数据管道、持续代码重构或长篇内容生成,而无需担心提示溢出。
  • 工具丰富的集成: 由于状态保存在磁盘上,代理可以轻松读写数据库、版本控制系统或外部 API,使该框架自然适用于 DevOps 自动化或研究助手。
  • 成本效益高的部署: 使用仅 20 B 的开源模型即可实现与更大专有产品相当的性能,降低初创公司和内部工具团队的计算预算。
  • 简化的调试与可审计性: 工作区文件提供每个中间结果的透明日志,帮助开发者检查、重放或回滚代理的推理步骤。

限制与未来工作

  • 状态设计开销: 构建有效的快照(包括哪些内容、如何摘要)仍然需要领域知识;设计不佳的快照可能会降低性能。
  • 文件系统延迟: 对于极高频率的循环,磁盘 I/O 可能成为瓶颈;未来的工作可以探索内存缓存或向量库后端。
  • 错误传播: 虽然框架减轻了上下文丢失,但工作流早期产生的逻辑错误仍会传播;集成验证或自我纠正模块是一个开放方向。
  • 对真正大规模状态的可扩展性: 当前原型假设工作区能够容纳在单台机器上;企业级代理需要分布式状态存储(例如云对象存储)。

InfiAgent 表明,将“思考”(LLM 提示)与“记忆”(外部状态)进行清晰分离,能够利用当今的开源模型解锁稳定、长期运行的自主代理。对于希望将 LLM 嵌入复杂流水线的开发者而言,该框架提供了一条务实且低成本的前进路径。

作者

  • Chenglin Yu
  • Yuchen Wang
  • Songmiao Wang
  • Hongxia Yang
  • Ming Li

论文信息

  • arXiv ID: 2601.03204v1
  • 分类: cs.AI, cs.MA
  • 发布时间: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »