새 프레임워크가 AI 에이전트가 기본 모델을 재학습 없이 자체 스킬을 다시 작성하도록 허용

발행: (2026년 4월 9일 오전 02:18 GMT+9)
13 분 소요
원문: VentureBeat

Source: VentureBeat

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

자율 에이전트 배포 시 주요 과제 하나

환경 변화에 재학습 없이 적응할 수 있는 시스템을 구축하는 것은 핵심 병목 현상입니다.

Memento‑Skills는 여러 대학 연구자들이 개발한 새로운 프레임워크로, 에이전트가 스스로 기술을 개발할 수 있게 함으로써 이 문제를 해결합니다.

“현재 시장의 OpenClaw 및 Claude Code와 같은 기존 제품에 지속 학습 능력을 추가합니다,” — 논문 공동 저자인 Jun Wang이 VentureBeat에 전했습니다.

Memento‑Skills는 진화하는 외부 메모리 역할을 하여, 기본 모델을 수정하지 않고도 시스템이 점진적으로 능력을 향상시킬 수 있게 합니다. 프레임워크는 에이전트가 환경으로부터 피드백을 받을 때 업데이트 및 확장될 수 있는 일련의 기술을 제공합니다.

프로덕션에서 에이전트를 운영하는 기업 팀에게 이는 중요한 요소입니다. 대안인 모델 가중치를 미세 조정하거나 기술을 수동으로 구축하는 방법은 상당한 운영 부담과 데이터 요구사항을 수반합니다. Memento‑Skills는 이 두 가지를 모두 회피합니다.

자기‑진화 에이전트 구축의 과제

  1. 고정된 언어 모델

    • 한 번 배포되면 모델의 파라미터는 고정되어, 학습 시 인코딩된 지식과 즉시 사용할 수 있는 컨텍스트 윈도우에 들어가는 내용에만 제한됩니다.
  2. 외부 메모리의 필요성

    • 외부 메모리 구조를 활용하면 비용이 많이 들고 시간이 오래 걸리는 재학습 없이도 성능을 향상시킬 수 있습니다.
  3. 현재 적응 방식

    • 수동으로 설계된 스킬에 크게 의존합니다.
    • 자동 스킬 학습 방법은 종종 텍스트‑전용 가이드를 생성하는데, 이는 프롬프트 최적화에 불과합니다.
    • 일부 접근 방식은 단일 작업 궤적만을 기록하여 작업 간 전이성을 제공하지 못합니다.
  4. 검색의 한계

    • 에이전트는 일반적으로 시맨틱 유사도 라우터(예: 밀집 임베딩)를 사용합니다.
    • 높은 시맨틱 겹침이 행동상의 유용성을 보장하지는 않습니다.

    “대부분의 검색‑증강 생성(RAG) 시스템은 유사도 기반 검색에 의존합니다. 그러나 스킬이 마크다운 문서나 코드 스니펫과 같은 실행 가능한 아티팩트로 표현될 때, 유사도만으로는 가장 효과적인 스킬을 선택하지 못할 수 있습니다.” – Wang

Memento‑Skills가 스킬을 저장하고 업데이트하는 방법

스킬 표현

  • 형식: 에이전트의 진화하는 지식 베이스 역할을 하는 구조화된 markdown 파일.
  • 재사용 가능한 각 스킬 아티팩트의 핵심 요소:
    1. 선언적 사양 – 스킬이 무엇이며 어떻게 사용되어야 하는지.
    2. 특화된 지시와 프롬프트 – LLM의 추론을 안내.
    3. 실행 가능한 코드 및 헬퍼 스크립트 – 작업을 해결하는 실제 구현.

지속적 학습 메커니즘

  • 읽기‑쓰기 반사 학습 – 메모리 업데이트를 수동 기록이 아니라 능동적인 정책 반복으로 구성.
  • 워크플로우:
    1. 전문화된 스킬 라우터쿼리하여 가장 행동적으로 관련된 스킬을 가져옴(단순히 의미적으로 가장 유사한 것만은 아님).
    2. 스킬을 실행하고 피드백을 받음.
    3. 결과를 반성:
      • 실행이 실패하면, 오케스트레이터가 트레이스를 평가하고 스킬 아티팩트(코드 또는 프롬프트)를 재작성함.
      • 필요하면, 새 스킬을 처음부터 생성함.

스킬 라우터 훈련

  • 실행 피드백으로부터 학습하고 텍스트 중복이 아닌 단계‑오프라인 강화 학습 과정을 통해 업데이트됨.

“스킬의 진정한 가치는 그것이 전체 에이전트 워크플로우와 하위 실행에 어떻게 기여하느냐에 있다,” – Wang. “따라서 강화 학습은 더 적합한 프레임워크이며, 이는 에이전트가 장기적인 효용을 기반으로 스킬을 평가하고 선택할 수 있게 해준다.”

안전 가드레일

  • 자동 단위 테스트 게이트:
    • 합성 테스트 케이스를 생성한다.
    • 업데이트된 스킬을 테스트에 실행한다.
    • 테스트가 통과할 경우에만 변경 사항을 저장하여 프로덕션에서의 회귀를 방지한다.

지속적으로 자체 실행 도구를 재작성하고 다듬음으로써, Memento‑Skills는 고정된 LLM이 견고한 “근육 기억”을 구축하고 엔드‑투‑엔드로 능력을 점진적으로 확장하도록 한다.

자기‑진화 에이전트를 테스트해 보기

벤치마크

벤치마크설명
General AI Assistants (GAIA)복잡한 다단계 추론, 다중 모달리티 처리, 웹 브라우징 및 도구 사용을 필요로 함.
Humanity’s Last Exam (HLE)전문가 수준의 벤치마크로, 수학, 생물학 등 여덟 개의 다양한 학문 분야를 포괄함.
  • Underlying model: Gemini‑3.1‑Flash (frozen).

베이스라인

  • Read‑Write baseline: 기술을 검색하고 피드백을 수집하지만 자기‑진화 기능이 없음.
  • Skill router baselines: 표준 의미 검색 방법으로, BM25Qwen‑3 embeddings를 포함함.

결과

  • 적극적인 자기‑진화 메모리는 매우 다양한 GAIA 벤치마크에서 정적 기술 라이브러리를 훨씬 능가함 (간략히 상세 내용 생략).

Memento‑Skills 성능 하이라이트

  • 테스트 세트 정확도: Memento‑Skills는 정적 베이스라인보다 13.7 pp 정확도가 향상되어 66.0 %(정확도) vs. **52.3 %**를 달성했습니다.
  • HLE 벤치마크: 대규모 교차‑작업 스킬 재사용 덕분에 성능이 두 배 이상 상승하여 **17.9 %**에서 **38.7 %**로 증가했습니다.

Skill Router 장점

특화된 스킬 라우터는 의미적 유사성만으로 관련 없는 스킬을 선택하는 고전적인 검색 함정을 피합니다. 실험 결과:

  • 엔드‑투‑엔드 작업 성공률: Memento‑Skills는 80 %, 표준 BM25 검색은 50 %.

유기적이고 구조화된 스킬 성장

벤치마크초기 시드 스킬최종 스킬 라이브러리
GAIA5개의 원자 스킬(예: 기본 웹 검색, 터미널 작업)41개의 압축 스킬
HLE5개의 원자 스킬235개의 개별 스킬

두 벤치마크 모두 단 5개의 원자 시드 스킬만으로 시작해 위와 같은 수치로 자율적으로 확장되었습니다.

엔터프라이즈 최적점 찾기

Memento‑Skills의 코드는 GitHub에 공개되어 있으며 바로 사용할 수 있습니다.

엔터프라이즈 아키텍트가 고려해야 할 핵심 사항

  1. 도메인 정렬 – 에이전트 작업이 도메인과 얼마나 잘 맞추어지는지가 효과성의 핵심입니다.
  2. 작업 구조
    • 독립적/연관성이 약한 작업: 에이전트는 처음부터 학습해야 하며, 작업 간 전이 효과가 제한됩니다.
    • 구조화되고 연관된 작업: 기존에 습득한 기술을 직접 재사용할 수 있어 학습 효율이 크게 향상됩니다.

“스킬 전이는 작업 간 유사성 정도에 따라 달라집니다,” 라고 Wang은 말합니다. “작업이 상당한 구조를 공유할 때, 이전에 습득한 스킬을 바로 재사용할 수 있어 에이전트가 추가적인 상호작용 없이도 새로운 문제를 잘 해결할 수 있습니다.”

권장 배포 시나리오

  • 워크플로 – 가장 적합한 환경으로, 스킬을 구성하고 평가하며 개선할 수 있는 구조화된 환경을 제공합니다.
  • 물리적 에이전트 – 아직 대부분 탐구되지 않은 영역이며, 추가적인 연구가 필요합니다.
  • 장기 과제 – 조정, 계획 및 지속적인 실행을 위해 (예: 다중 에이전트 LLM 시스템) 보다 고급 접근 방식이 필요할 수 있습니다.

거버넌스 및 보안

에이전트가 생산 코드를 자율적으로 재작성하는 방향으로 나아가면서, 견고한 거버넌스는 여전히 최우선 과제입니다.

  • Safety rails – Memento‑Skills는 이미 자동 단위 테스트 게이트를 포함하고 있습니다.
  • Evaluation framework – 성능을 평가하고 일관된 지침을 제공할 포괄적인 판정 시스템이 필요합니다.

“신뢰할 수 있는 자기 개선을 가능하게 하려면, 성능을 평가하고 일관된 지침을 제공할 수 있는 잘 설계된 평가 또는 판정 시스템이 필요합니다,”라고 Wang이 언급합니다. “제한 없는 자기 수정이 허용되는 대신, 이 과정은 피드백이 에이전트를 더 나은 설계로 이끄는 안내된 형태의 자기 개발로 구조화되어야 합니다.”

0 조회
Back to Blog

관련 글

더 보기 »