LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리

발행: 16시간 전 (2026년 6월 12일 AM 08:48 GMT+9)

5 분 소요

Source: Dev.to

에이전트 메모리에 대한 흔한 반론은 “필요 없어요”라는 것이다. 현재 컨텍스트 윈도우가 거대해졌으니 전체 대화 기록을 프롬프트에 넣으면 된다고 말이다. 우리는 직관이 아닌 실제 답을 원했기에, 전체 컨텍스트를 기준으로 두 개의 공개 장기 메모리 벤치마크를 실행했다. 그 결과를 공개한다—기준 모델이 이긴 경우도 포함해서.

우리는 같은 질문에 대해 두 가지 구성을 비교했다. 전체 컨텍스트 기준 모델은 대화 전체를 프롬프트에 넣는다. Eidentic 메모리는 대화 기록을 4단계 엔진에 넣고 각 질문에 필요한 부분만을 검색한다. 두 모델 모두 동일한 LLM과 동일한 LLM 심판을 사용한다. 우리는 샘플링 없이 전체 데이터를 실행했으며, 승패를 함께 공개한다.

LongMemEval은 약 115k 토큰, 약 50개의 세션, 500개의 질문으로 이루어진 긴 히스토리를 사용한다. 여기서 메모리가 도움이 되어야 하며, 실제로도 그렇다: 전체 컨텍스트 41.0%에 비해 55.2%로 14.2 포인트 차이, 모든 여섯 질문 유형에서 승리했다.

질문 유형 전체 컨텍스트 Eidentic 메모리
단일 세션 · 사용자 67.1% 84.3%
단일 세션 · 어시스턴트 73.2% 92.9%
단일 세션 · 선호도 3.3% 26.7%
다중 세션 27.8% 42.1%
시간 추론 20.3% 34.6%
지식 업데이트 66.7% 70.5%
전체 41.0% 55.2%

비용 차이가 이야기를 반으로 나눈다. 메모리는 각 질문당 약 2,550 토큰의 검색된 컨텍스트만 사용하지만, 기준 모델은 매번 전체 히스토리를 약 99,435 토큰을 재읽는다—점수 차이만큼 토큰 사용량이 최대 약 39배 적다. 여기서는 정확도가 높아질 뿐 아니라 비용도 크게 절감된다.

LoCoMo는 훨씬 작은 데이터 풀을 가진다. 전체 히스토리가 윈도우에 충분히 들어갈 때는 무차별 대입이 이기기 어렵다: 모델이 한 번에 모든 정보를 볼 수 있고, 단일·다중 홉 질문에 검색이 필요하지 않다. 이 경우 전체 컨텍스트 기준 모델이 7.8 포인트 앞선다. 메모리는 여전히 토큰을 훨씬 적게 사용한다(~893 vs ~19,030), 하지만 작은 히스토리에서는 정확도 측면에서 그 이점이 비용 절감으로 상쇄되지 않는다.

히스토리가 길수록 메모리가 승리한다—정확도와 비용 모두에서. 작은 히스토리에서는 전체 컨텍스트가 경쟁력을 유지한다. 우리는 여러분이 두 수치를 모두 알기를 원한다, 한쪽만 알기보다는.

에이전트의 대화가 짧고 한정적이라면 메모리 엔진이 필요 없을 수도 있다—그렇다면 그렇게 말해줄 것이다. 하지만 히스토리가 매 턴마다 재읽기에 비용이 너무 커지는 시점에 도달하면, 검색 기반 메모리는 두 마리 토끼를 잡는다: 더 나은 답변과 훨씬 적은 토큰 사용. 실제 제품에서도 이 전환점은 빠르게 찾아온다.

전체 방법론, 벤치마크용 하네스, 그리고 질문별 원시 기록은 벤치마크 문서에 있으며, 실행 코드는 레포에 있다. 직접 재현해보고 우리가 틀린 부분을 알려주길 바란다.

LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리

관련 글

Eidentic 소개

Typescript의 타입

AgentForge – AI 에이전트가 신뢰할 수 있는 코드를 배포하도록 하는 28가지 프로덕션 급 스킬

내 암호화 검색을 깨기 위해 신경망을 훈련했지만, 배운 게 없었다.

질문 유형	전체 컨텍스트	Eidentic 메모리
단일 세션 · 사용자	67.1%	84.3%
단일 세션 · 어시스턴트	73.2%	92.9%
단일 세션 · 선호도	3.3%	26.7%
다중 세션	27.8%	42.1%
시간 추론	20.3%	34.6%
지식 업데이트	66.7%	70.5%
전체	41.0%	55.2%