[Paper] InfiAgent:面向通用自主代理的无限时域框架
发布: (2026年1月7日 GMT+8 01:35)
8 min read
原文: arXiv
Source: arXiv - 2601.03204v1
概述
本文介绍了 InfiAgent,一个新框架,使大语言模型(LLM)代理能够处理跨多步的任务,而不会导致内部上下文窗口膨胀。通过将代理的“记忆”从提示中移至轻量级、基于文件的状态存储,InfiAgent 能保持提示大小恒定,同时仍保留代理迄今为止学到的所有信息。作者展示,即使是 20 B 的开源模型,也能在长期运行的研究助理任务中与更大规模的专有系统竞争。
关键贡献
- State externalization: 一个以文件为中心的抽象,将代理的持久状态存储在 LLM 提示之外,确保无论任务多长都能保持有界上下文。
- Workspace snapshot + sliding window: 在每一步推理时,模型接收 (1) 当前工作区状态的简洁快照以及 (2) 最近若干动作的固定大小窗口,从而实现稳定推理,避免上下文溢出。
- Task‑agnostic design: 无需针对特定任务进行微调;同一框架即可用于文献综述、多步骤研究流水线等多种长时程问题。
- Empirical validation: 在 DeepResearch 套件和 80 篇文献综述基准上的实验表明,尽管模型规模更小且为开源,但在长时程任务上的覆盖率显著更高,性能与更大、闭源的代理相竞争。
- Open‑source release: 完整实现、提示词和评估脚本已在 GitHub 上公开,鼓励社区进行扩展。
方法论
- 状态表示 – 代理的知识(例如,收集的事实、中间结果、工具输出)被序列化为一组 JSON/YAML 文件,构成 工作区。
- 快照生成 – 在每次调用 LLM 之前,系统会创建一个 快照:工作区的精炼视图(例如,关键变量、过去操作的摘要)。该快照刻意保持很小(几百个 token)。
- 动作窗口 – 最近的 k 个动作(默认 = 5)会附加到提示中,为模型提供短期上下文以保持连续性。
- LLM 调用 – 提示由以下部分组成:系统指令、快照、动作窗口以及任务特定查询。LLM 生成下一个动作(例如,“运行工具 X”、 “存储 Y”、 “请求澄清”)。
- 状态更新 – 所选动作会更新工作区文件,循环重复。由于工作区位于磁盘上,其大小可以任意增长,而不会影响提示长度。
这种方法故意保持简单:它依赖标准文件 I/O,不需要自定义神经记忆模块,因而易于集成到现有的 LLM‑as‑a‑service 流水线中。
结果与发现
| 基准 | 模型(InfiAgent) | 基线(上下文中心) | 相对表现 |
|---|---|---|---|
| DeepResearch(多步骤研究) | 20 B 开源 LLM + InfiAgent | 13 B LLM 仅使用滑动窗口 | +12 % 任务成功率,+30 % 步骤覆盖率 |
| 80篇论文文献综述 | 20 B LLM + InfiAgent | 专有 70 B 代理(无状态外部化) | 可比的 F1/召回率,但 失败前的时间跨度是原来的 2 倍 |
关键观察
- 稳定的长时程行为: InfiAgent 在多达 50 步推理时成功率保持在 >90 %,而仅使用上下文的基线在约 15 步后急剧下降。
- 无需微调: 同一提示模板即可在两个基准上使用,验证了状态外部化思路的通用性。
- 资源效率: 通过将提示控制在 2 k token 以下,推理延迟与基线模型相当,尽管增加了文件 I/O。
实际意义
- 可扩展的自主助手: 开发者可以构建管理复杂工作流的代理,例如多阶段数据管道、持续代码重构或长篇内容生成,而无需担心提示溢出。
- 工具丰富的集成: 由于状态保存在磁盘上,代理可以轻松读写数据库、版本控制系统或外部 API,使该框架自然适用于 DevOps 自动化或研究助手。
- 成本效益高的部署: 使用仅 20 B 的开源模型即可实现与更大专有产品相当的性能,降低初创公司和内部工具团队的计算预算。
- 简化的调试与可审计性: 工作区文件提供每个中间结果的透明日志,帮助开发者检查、重放或回滚代理的推理步骤。
限制与未来工作
- 状态设计开销: 构建有效的快照(包括哪些内容、如何摘要)仍然需要领域知识;设计不佳的快照可能会降低性能。
- 文件系统延迟: 对于极高频率的循环,磁盘 I/O 可能成为瓶颈;未来的工作可以探索内存缓存或向量库后端。
- 错误传播: 虽然框架减轻了上下文丢失,但工作流早期产生的逻辑错误仍会传播;集成验证或自我纠正模块是一个开放方向。
- 对真正大规模状态的可扩展性: 当前原型假设工作区能够容纳在单台机器上;企业级代理需要分布式状态存储(例如云对象存储)。
InfiAgent 表明,将“思考”(LLM 提示)与“记忆”(外部状态)进行清晰分离,能够利用当今的开源模型解锁稳定、长期运行的自主代理。对于希望将 LLM 嵌入复杂流水线的开发者而言,该框架提供了一条务实且低成本的前进路径。
作者
- Chenglin Yu
- Yuchen Wang
- Songmiao Wang
- Hongxia Yang
- Ming Li
论文信息
- arXiv ID: 2601.03204v1
- 分类: cs.AI, cs.MA
- 发布时间: 2026年1月6日
- PDF: 下载 PDF