0.12% 파라미터 추가만으로 AI 에이전트가 RAG가 제공하지 못하는 작업 메모리를 얻는다
출처: VentureBeat
AI 에이전트는 잊어버린다
코딩 어시스턴트가 디버깅 흐름을 놓치거나 데이터 분석 에이전트가 이미 처리한 동일한 컨텍스트를 다시 읽어들일 때마다 팀은 지연 시간, 토큰 비용, 그리고 깨지기 쉬운 워크플로우에 대한 대가를 치르게 됩니다.
대부분의 팀이 가장 먼저 시도하는 해결책—컨텍스트 윈도우를 확장하거나 RAG를 더 추가하는 것—은 점점 더 비용이 많이 들고 여전히 안정적으로 작동하지 않습니다.
제안된 솔루션: Delta‑mem
Mind Lab과 여러 대학의 연구원들은 delta‑mem을 소개했습니다. 이는 모델 자체를 변경하지 않으면서 모델의 과거 정보를 동적으로 업데이트되는 행렬로 압축하는 효율적인 기법입니다.
- 파라미터 오버헤드: 백본 모델 파라미터의 **0.12 %**만 추가합니다 (선도 대안은 76.40 %).
- 성능: 메모리 집약적인 벤치마크에서 대안을 능가합니다.
- 이점: 모델이 과거 데이터를 지속적으로 축적·재사용하게 하여 거대한 컨텍스트 윈도우나 복잡한 외부 검색 모듈에 대한 의존도를 낮춥니다.
장기 메모리 과제
전통적인 해결책은 모든 정보를 모델의 컨텍스트 윈도우에 넣는 것입니다. 논문의 공동 저자 Jingdi Lei가 VentureBeat에 말했습니다:
“컨텍스트 윈도우를 계속 확장하거나 RAG를 통해 더 많은 문서를 검색하는 두 가지 방법이 있습니다. 이 접근법들은 유용하고 앞으로도 중요하지만, 에이전트가 장시간에 걸친 다단계 상호작용을 수행해야 할 때 비용이 급증하고 취약해지며, 인간 기억처럼 작동하지 못합니다. 사실은 문서를 찾아보는 것에 가깝기 때문입니다.”
왜 컨텍스트‑전용 전략이 실패하는가
- 이차 비용: 표준 어텐션은 시퀀스 길이에 따라 이차적으로 비용이 증가합니다.
- 컨텍스트 퇴화/부패: 백만 토큰 규모의 윈도우라도 상충되는 정보에 압도되어 중요한 세부 사항을 기억하지 못합니다.
- 엔터프라이즈 병목: 문제는 히스토리 접근이 아니라 저지연, 효율적인 지속 재사용입니다.
기존 메모리 패러다임(및 트레이드오프)
| 패러다임 | 설명 | 제한점 |
|---|---|---|
| 텍스트 메모리 | 프롬프트에 삽입되는 원시 텍스트 형태로 히스토리를 저장 | 윈도우 크기에 제한; 압축 시 정보 손실 위험 |
| 외부 채널 (RAG) | 외부 모듈 |