[Paper] InfiAgent: 일반 목적 자율 에이전트를 위한 무한-시간 프레임워크

발행: (2026년 1월 7일 오전 02:35 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2601.03204v1

개요

이 논문은 InfiAgent라는 새로운 프레임워크를 소개한다. 이 프레임워크는 대규모 언어 모델(LLM) 에이전트가 내부 컨텍스트 윈도우를 초과하지 않으면서도 여러 단계에 걸친 작업을 수행할 수 있게 한다. 에이전트의 “메모리”를 프롬프트 밖으로 옮겨 가볍고 파일 기반의 상태 저장소에 두어, InfiAgent는 프롬프트 크기를 일정하게 유지하면서도 지금까지 에이전트가 학습한 모든 내용을 보존한다. 저자들은 20 B 규모의 오픈소스 모델조차도 장기 연구 보조 작업에서 훨씬 큰 상용 시스템과 경쟁할 수 있음을 보여준다.

주요 기여

  • State externalization: 에이전트의 지속적인 상태를 LLM 프롬프트 외부에 파일 중심으로 저장하는 추상화로, 작업 길이에 관계없이 제한된 컨텍스트를 보장합니다.
  • Workspace snapshot + sliding window: 각 추론 단계에서 모델은 (1) 현재 워크스페이스 상태의 간결한 스냅샷과 (2) 가장 최근 행동들의 고정 크기 윈도우를 받아, 컨텍스트 오버플로우 없이 안정적인 추론을 가능하게 합니다.
  • Task‑agnostic design: 작업별 파인튜닝이 필요 없으며, 문헌 리뷰와 다단계 연구 파이프라인 같은 다양한 장기 과제에 동일한 프레임워크를 적용할 수 있습니다.
  • Empirical validation: DeepResearch 스위트와 80편 논문 문헌 리뷰 벤치마크에서 더 큰 폐쇄형 에이전트와 경쟁력 있는 성능을 보이며, 장기 과제에서 훨씬 높은 커버리지를 유지함을 입증했습니다.
  • Open‑source release: 전체 구현 코드, 프롬프트, 평가 스크립트가 GitHub에 제공되어 커뮤니티 확장을 장려합니다.

Methodology

  1. State Representation – 에이전트의 지식(예: 수집된 사실, 중간 결과, 도구 출력)은 워크스페이스를 구성하는 JSON/YAML 파일 집합으로 직렬화됩니다.
  2. Snapshot Generation – 각 LLM 호출 전에 시스템은 스냅샷을 생성합니다: 워크스페이스의 핵심 변수와 과거 행동 요약 등으로 구성된 압축된 뷰입니다. 이 스냅샷은 의도적으로 작게(수백 토큰 정도) 유지됩니다.
  3. Action Window – 가장 최근 k개의 행동(기본값 = 5)이 프롬프트에 추가되어 모델에 단기 맥락을 제공합니다.
  4. LLM Invocation – 프롬프트는 다음으로 구성됩니다: 시스템 지시문, 스냅샷, 액션 윈도우, 그리고 작업‑특정 질의. LLM은 다음 행동(예: “run tool X”, “store Y”, “ask clarification”)을 생성합니다.
  5. State Update – 선택된 행동이 워크스페이스 파일을 업데이트하고, 루프가 반복됩니다. 워크스페이스가 디스크에 존재하기 때문에 그 크기는 프롬프트 길이에 영향을 주지 않고 자유롭게 확장될 수 있습니다.

이 접근 방식은 의도적으로 단순합니다: 표준 파일 I/O에 의존하고 맞춤형 신경 메모리 모듈이 필요 없으며, 기존 LLM‑as‑a‑service 파이프라인에 쉽게 연결할 수 있습니다.

Results & Findings

벤치마크모델 (InfiAgent)베이스라인 (context‑centric)상대 성능
DeepResearch (다단계 연구)20 B open‑source LLM + InfiAgent13 B LLM with sliding‑window only+12 % 작업 성공률, +30 % 단계 커버리지
80‑논문 문헌 검토20 B LLM + InfiAgent독점 70 B agent (no state externalization)Comparable F1/Recall, but 2× longer horizon before failure

주요 관찰

  • 안정적인 장기 horizon 행동: InfiAgent는 50개의 추론 단계까지 >90 % 성공률을 유지하지만, context‑only 베이스라인은 약 15단계 이후 급격히 감소합니다.
  • 미세조정 불필요: 동일한 프롬프트 템플릿이 두 벤치마크 모두에서 작동하여, 상태 외부화 아이디어의 일반성을 확인합니다.
  • 자원 효율성: 프롬프트를 2 k 토큰 이하로 유지함으로써, 추가 파일 I/O에도 불구하고 추론 지연 시간이 베이스라인 모델과 비슷하게 유지됩니다.

실용적 시사점

  • 확장 가능한 자율 어시스턴트: 개발자는 복잡한 워크플로우(예: 다단계 데이터 파이프라인, 지속적인 코드 리팩토링, 혹은 장문 콘텐츠 생성)를 관리하는 에이전트를 구축할 수 있으며, 프롬프트 오버플로우를 걱정할 필요가 없습니다.
  • 툴이 풍부한 통합: 상태가 디스크에 저장되므로 에이전트는 데이터베이스, 버전 관리 시스템, 외부 API 등에 쉽게 읽고 쓸 수 있어, DevOps 자동화나 연구 어시스턴트에 자연스럽게 맞습니다.
  • 비용 효율적인 배포: 20 B 규모의 오픈소스 모델을 사용해도 훨씬 큰 상용 모델과 동등한 성능을 제공하므로, 스타트업 및 내부 툴링 팀의 컴퓨팅 예산을 절감할 수 있습니다.
  • 디버깅 및 감사 용이성 간소화: 워크스페이스 파일은 모든 중간 결과의 투명한 로그를 제공하여, 개발자가 에이전트의 추론 단계를 검사, 재생, 또는 롤백할 수 있게 합니다.

제한 사항 및 향후 연구

  • State design overhead: 효과적인 스냅샷(포함할 내용, 요약 방법)을 설계하는 데는 여전히 도메인 지식이 필요합니다; 설계가 부실하면 성능이 저하될 수 있습니다.
  • File‑system latency: 매우 높은 빈도의 루프에서는 디스크 I/O가 병목이 될 수 있습니다; 향후 연구에서는 메모리 내 캐시나 벡터‑스토어 백엔드를 탐색할 수 있습니다.
  • Error propagation: 프레임워크가 컨텍스트 손실을 완화하지만, 워크플로 초기에 발생한 논리적 오류는 여전히 전파됩니다; 검증 또는 자체‑수정 모듈을 통합하는 것이 열린 방향입니다.
  • Scalability to truly massive state: 현재 프로토타입은 작업 공간이 단일 머신에 맞춰져 있다고 가정합니다; 엔터프라이즈‑규모 에이전트를 위해서는 분산 상태 저장소(예: 클라우드 객체 스토리지)가 필요합니다.

InfiAgent는 “thinking”(LLM 프롬프트)과 “remembering”(외부 상태)을 명확히 분리함으로써 오늘날의 오픈‑소스 모델을 사용해 안정적이고 장기 실행되는 자율 에이전트를 구현할 수 있음을 보여줍니다. 복잡한 파이프라인에 LLM을 삽입하려는 개발자에게 이 프레임워크는 실용적이며 저비용의 진로를 제공합니다.

저자

  • Chenglin Yu
  • Yuchen Wang
  • Songmiao Wang
  • Hongxia Yang
  • Ming Li

논문 정보

  • arXiv ID: 2601.03204v1
  • 분류: cs.AI, cs.MA
  • 출판일: 2026년 1월 6일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »