[Paper] InfiAgent：面向通用自主代理的无限时域框架

发布: 1个月前 (2026年1月7日 GMT+8 01:35)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.03204v1

概述

本文介绍了 InfiAgent，一个新框架，使大语言模型（LLM）代理能够处理跨多步的任务，而不会导致内部上下文窗口膨胀。通过将代理的“记忆”从提示中移至轻量级、基于文件的状态存储，InfiAgent 能保持提示大小恒定，同时仍保留代理迄今为止学到的所有信息。作者展示，即使是 20 B 的开源模型，也能在长期运行的研究助理任务中与更大规模的专有系统竞争。

关键贡献

State externalization: 一个以文件为中心的抽象，将代理的持久状态存储在 LLM 提示之外，确保无论任务多长都能保持有界上下文。
Workspace snapshot + sliding window: 在每一步推理时，模型接收 (1) 当前工作区状态的简洁快照以及 (2) 最近若干动作的固定大小窗口，从而实现稳定推理，避免上下文溢出。
Task‑agnostic design: 无需针对特定任务进行微调；同一框架即可用于文献综述、多步骤研究流水线等多种长时程问题。
Empirical validation: 在 DeepResearch 套件和 80 篇文献综述基准上的实验表明，尽管模型规模更小且为开源，但在长时程任务上的覆盖率显著更高，性能与更大、闭源的代理相竞争。
Open‑source release: 完整实现、提示词和评估脚本已在 GitHub 上公开，鼓励社区进行扩展。

方法论

状态表示 – 代理的知识（例如，收集的事实、中间结果、工具输出）被序列化为一组 JSON/YAML 文件，构成 工作区。
快照生成 – 在每次调用 LLM 之前，系统会创建一个快照：工作区的精炼视图（例如，关键变量、过去操作的摘要）。该快照刻意保持很小（几百个 token）。
动作窗口 – 最近的 k 个动作（默认 = 5）会附加到提示中，为模型提供短期上下文以保持连续性。
LLM 调用 – 提示由以下部分组成：系统指令、快照、动作窗口以及任务特定查询。LLM 生成下一个动作（例如，“运行工具 X”、 “存储 Y”、 “请求澄清”）。
状态更新 – 所选动作会更新工作区文件，循环重复。由于工作区位于磁盘上，其大小可以任意增长，而不会影响提示长度。

这种方法故意保持简单：它依赖标准文件 I/O，不需要自定义神经记忆模块，因而易于集成到现有的 LLM‑as‑a‑service 流水线中。

结果与发现

基准	模型（InfiAgent）	基线（上下文中心）	相对表现
DeepResearch（多步骤研究）	20 B 开源 LLM + InfiAgent	13 B LLM 仅使用滑动窗口	+12 % 任务成功率，+30 % 步骤覆盖率
80篇论文文献综述	20 B LLM + InfiAgent	专有 70 B 代理（无状态外部化）	可比的 F1/召回率，但失败前的时间跨度是原来的 2 倍

关键观察

稳定的长时程行为： InfiAgent 在多达 50 步推理时成功率保持在 >90 %，而仅使用上下文的基线在约 15 步后急剧下降。
无需微调： 同一提示模板即可在两个基准上使用，验证了状态外部化思路的通用性。
资源效率： 通过将提示控制在 2 k token 以下，推理延迟与基线模型相当，尽管增加了文件 I/O。

实际意义

可扩展的自主助手： 开发者可以构建管理复杂工作流的代理，例如多阶段数据管道、持续代码重构或长篇内容生成，而无需担心提示溢出。
工具丰富的集成： 由于状态保存在磁盘上，代理可以轻松读写数据库、版本控制系统或外部 API，使该框架自然适用于 DevOps 自动化或研究助手。
成本效益高的部署： 使用仅 20 B 的开源模型即可实现与更大专有产品相当的性能，降低初创公司和内部工具团队的计算预算。
简化的调试与可审计性： 工作区文件提供每个中间结果的透明日志，帮助开发者检查、重放或回滚代理的推理步骤。

限制与未来工作

状态设计开销： 构建有效的快照（包括哪些内容、如何摘要）仍然需要领域知识；设计不佳的快照可能会降低性能。
文件系统延迟： 对于极高频率的循环，磁盘 I/O 可能成为瓶颈；未来的工作可以探索内存缓存或向量库后端。
错误传播： 虽然框架减轻了上下文丢失，但工作流早期产生的逻辑错误仍会传播；集成验证或自我纠正模块是一个开放方向。
对真正大规模状态的可扩展性： 当前原型假设工作区能够容纳在单台机器上；企业级代理需要分布式状态存储（例如云对象存储）。

InfiAgent 表明，将“思考”（LLM 提示）与“记忆”（外部状态）进行清晰分离，能够利用当今的开源模型解锁稳定、长期运行的自主代理。对于希望将 LLM 嵌入复杂流水线的开发者而言，该框架提供了一条务实且低成本的前进路径。

作者

Chenglin Yu
Yuchen Wang
Songmiao Wang
Hongxia Yang
Ming Li

论文信息

arXiv ID: 2601.03204v1
分类: cs.AI, cs.MA
发布时间: 2026年1月6日
PDF: 下载 PDF

[Paper] InfiAgent：面向通用自主代理的无限时域框架

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性