LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리
Source: Dev.to
에이전트 메모리에 대한 흔한 반론은 “필요 없어요”라는 것이다. 현재 컨텍스트 윈도우가 거대해졌으니 전체 대화 기록을 프롬프트에 넣으면 된다고 말이다. 우리는 직관이 아닌 실제 답을 원했기에, 전체 컨텍스트를 기준으로 두 개의 공개 장기 메모리 벤치마크를 실행했다. 그 결과를 공개한다—기준 모델이 이긴 경우도 포함해서.
우리는 같은 질문에 대해 두 가지 구성을 비교했다. 전체 컨텍스트 기준 모델은 대화 전체를 프롬프트에 넣는다. Eidentic 메모리는 대화 기록을 4단계 엔진에 넣고 각 질문에 필요한 부분만을 검색한다. 두 모델 모두 동일한 LLM과 동일한 LLM 심판을 사용한다. 우리는 샘플링 없이 전체 데이터를 실행했으며, 승패를 함께 공개한다.
LongMemEval은 약 115k 토큰, 약 50개의 세션, 500개의 질문으로 이루어진 긴 히스토리를 사용한다. 여기서 메모리가 도움이 되어야 하며, 실제로도 그렇다: 전체 컨텍스트 41.0%에 비해 55.2%로 14.2 포인트 차이, 모든 여섯 질문 유형에서 승리했다.
질문 유형 전체 컨텍스트 Eidentic 메모리 단일 세션 · 사용자 67.1% 84.3% 단일 세션 · 어시스턴트 73.2% 92.9% 단일 세션 · 선호도 3.3% 26.7% 다중 세션 27.8% 42.1% 시간 추론 20.3% 34.6% 지식 업데이트 66.7% 70.5% 전체 41.0% 55.2% 비용 차이가 이야기를 반으로 나눈다. 메모리는 각 질문당 약 2,550 토큰의 검색된 컨텍스트만 사용하지만, 기준 모델은 매번 전체 히스토리를 약 99,435 토큰을 재읽는다—점수 차이만큼 토큰 사용량이 최대 약 39배 적다. 여기서는 정확도가 높아질 뿐 아니라 비용도 크게 절감된다.
LoCoMo는 훨씬 작은 데이터 풀을 가진다. 전체 히스토리가 윈도우에 충분히 들어갈 때는 무차별 대입이 이기기 어렵다: 모델이 한 번에 모든 정보를 볼 수 있고, 단일·다중 홉 질문에 검색이 필요하지 않다. 이 경우 전체 컨텍스트 기준 모델이 7.8 포인트 앞선다. 메모리는 여전히 토큰을 훨씬 적게 사용한다(~893 vs ~19,030), 하지만 작은 히스토리에서는 정확도 측면에서 그 이점이 비용 절감으로 상쇄되지 않는다.
히스토리가 길수록 메모리가 승리한다—정확도와 비용 모두에서. 작은 히스토리에서는 전체 컨텍스트가 경쟁력을 유지한다. 우리는 여러분이 두 수치를 모두 알기를 원한다, 한쪽만 알기보다는.
에이전트의 대화가 짧고 한정적이라면 메모리 엔진이 필요 없을 수도 있다—그렇다면 그렇게 말해줄 것이다. 하지만 히스토리가 매 턴마다 재읽기에 비용이 너무 커지는 시점에 도달하면, 검색 기반 메모리는 두 마리 토끼를 잡는다: 더 나은 답변과 훨씬 적은 토큰 사용. 실제 제품에서도 이 전환점은 빠르게 찾아온다.
전체 방법론, 벤치마크용 하네스, 그리고 질문별 원시 기록은 벤치마크 문서에 있으며, 실행 코드는 레포에 있다. 직접 재현해보고 우리가 틀린 부분을 알려주길 바란다.