[Paper] 지속적인 인텔리전스 성장: Self-Training, Continual Learning, 및 SuperIntelliAgent의 Dual-Scale Memory

발행: (2025년 11월 29일 오전 03:32 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.23436v1

Overview

이 논문은 SuperIntelliAgent라는 새로운 프레임워크를 소개한다. 이 프레임워크는 작은 학습 가능한 확산 모델(“학습자”)과 고정된 대형 언어 모델(“검증자”)을 결합하여, AI 시스템이 스스로 학습 데이터를 생성하고, 자체 출력을 평가하며, 인간이 작성한 라벨 없이 지속적으로 향상될 수 있게 한다.

Key Contributions

  • Self‑training loop: 학습자가 후보를 생성하고, 검증자가 단계별 추론을 수행해 이를 수락하거나 거부한다. 그 결과 생성된 쌍은 Direct Preference Optimization (DPO)에 투입된다.
  • Dual‑scale memory architecture:
    • Short‑term in‑context memory는 정제 사이클 전반에 걸쳐 추론 과정을 보존한다.
    • Long‑term memory는 경량의 실시간 파인튜닝을 통해 유용한 지식을 통합한다.
  • Replay buffer with adaptive curriculum: 측정 가능한 진전을 보인 예시들을 저장하고, 이를 보조 감독으로 재사용하여 최근 성과를 강화하고 향후 학습을 유도한다.
  • Infrastructure‑agnostic design: 기존 에이전트 파이프라인에 바로 적용 가능하며, 일반적인 추론 루프를 평생 최적화 프로세스로 전환한다.
  • Empirical validation: 자동으로 생성된 소수의 DPO 쌍만으로도 다양한 벤치마크에서 측정 가능한 성능 향상을 입증한다.

Methodology

  1. Learner (small diffusion model) – 입력 작업을 받아 하나 이상의 후보 솔루션을 생성한다.
  2. Verifier (frozen LLM) – 각 후보를 받아 체인‑오브‑쓰루(chain‑of‑thought) 스타일의 추론 루틴을 실행하고, 후보가 허용 가능한지 판단한다.
  3. Feedback generation – 학습자‑검증자 상호작용을 통해 동일 입력에 대해 chosen (수락)과 rejected (거부) 출력 쌍이 생성된다.
  4. Direct Preference Optimization (DPO) – 이러한 쌍을 선호 데이터로 취급하여, 학습자는 선택된 출력의 가능성을 높이고 거부된 출력의 가능성을 낮추도록 업데이트된다.
  5. Memory handling:
    • Short‑term: 검증자의 추론 단계가 프롬프트에 보존되어, 학습자가 동일 컨텍스트를 활용해 다음 시도를 정제할 수 있다.
    • Long‑term: 주기적으로 학습자는 고품질 쌍의 소규모 배치에 대해 파인튜닝되어, 새로운 지식을 가중치에 기록한다.
  6. Replay buffer – 명확한 개선(예: 높은 검증자 점수)을 보인 샘플을 저장한다. 이후 업데이트 시 버퍼에서 샘플을 추출해 추가 감독을 제공함으로써, 시스템이 이미 숙달한 내용을 강조하는 자체 커리큘럼을 만든다.

Results & Findings

  • Performance uplift: 여러 표준 추론 및 생성 벤치마크(예: MATH, GSM‑8K, instruction‑following tasks)에서 학습자는 단 몇 백 개의 자체 생성 DPO 쌍만으로 3–7 % 절대 정확도 향상을 보였다.
  • Sample efficiency: 이 시스템은 수천 개의 인간 라벨링 예시를 사용하는 감독 파인튜닝과 비슷한 성과를 달성했으며, 자율 데이터 생성의 힘을 강조한다.
  • Memory impact: Ablation 연구에서 단기 혹은 장기 메모리 중 하나를 제거하면 이득이 약 40 % 감소함을 보여, 두 스케일 모두 지속적 성장에 필수적임을 확인했다.
  • Replay buffer benefits: 버퍼 도입으로 안정성이 향상되고(재앙적 망각 현상 감소), 특히 후반 학습 단계에서 수렴 속도가 가속화되었다.

Practical Implications

  • Lifelong AI services: 챗 어시스턴트, 코드 생성기 등 배포 후에도 비용이 많이 드는 데이터 라벨링 파이프라인 없이 지속적으로 개선될 수 있다.
  • Reduced annotation cost: 기업은 내부 문서, 특수 API 등 새로운 도메인 전문성을 원시 입력만으로 에이전트가 자체 학습하도록 하여 라벨링 비용을 절감할 수 있다.
  • Plug‑and‑play upgrades: 기존 에이전트 아키텍처(ReAct, Toolformer 등)는 SuperIntelliAgent의 학습자‑검증자 쌍을 드롭‑인 모듈로 채택해 즉시 자체 최적화 루프를 얻을 수 있다.
  • Safer alignment: 검증자가 고정된, 잘 동작하는 LLM이므로 시스템 업데이트가 안정적인 추론 기반에 의해 안내되어 바람직하지 않은 행동으로의 편향을 완화한다.
  • Edge‑friendly scaling: 학습자는 경량 확산 모델이나 트랜스포머 모델이 될 수 있어, 강력한 클라우드‑호스팅 검증자를 활용하면서도 비교적 저사양 하드웨어에서 지속 학습이 가능하다.

Limitations & Future Work

  • Verifier reliance: 자체 생성 피드백의 품질은 고정된 LLM의 추론 능력에 제한된다; 검증자의 체계적 편향은 학습자에게 전이된다.
  • Compute overhead: 모든 후보에 대해 검증자를 실행하면 지연 시간이 증가해, 배치 처리나 증류 없이 실시간 애플리케이션에 적용하기 어려울 수 있다.
  • Memory management: Replay buffer가 크게 성장할 수 있으며, 논문에서는 간단한 선택 휴리스틱만 사용해 보다 정교한 커리큘럼‑학습 전략의 여지를 남긴다.
  • Generalization scope: 실험은 추론 및 명령 작업에 초점을 맞추었으며, 멀티모달이나 고도로 인터랙티브한 도메인(예: 로보틱스)으로의 적용은 아직 미해결이다.
  • Future directions: 저자들은 적응형 검증자 업데이트, 계층적 메모리 구조, 외부 도구(API, 데이터베이스)와의 긴밀한 통합 등을 탐구해 에이전트의 자율 학습 능력을 확장할 것을 제안한다.

Authors

  • Jianzhe Lin
  • Zeyu Pan
  • Yun Zhu
  • Ruiqi Song
  • Jining Yang

Paper Information

  • arXiv ID: 2511.23436v1
  • Categories: cs.AI
  • Published: November 28, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…