Memcortex 내부: LLM을 위한 경량 시맨틱 메모리 레이어

발행: 1개월 전 (2025년 12월 14일 오전 01:20 GMT+9)

9 분 소요

Source: Dev.to

왜 컨텍스트가 중요한가

LLM은 과거 대화를 실제로 저장할 수 없습니다. 유일한 메모리는 컨텍스트 윈도우이며, 이는 고정 길이 입력 버퍼(예: GPT‑4.1에서는 128 k 토큰, Claude 3.5 Sonnet에서는 200 k+ 토큰, Gemini 1.5 Pro에서는 최대 2 백만 토큰)입니다. 대화가 이 한도를 초과하면 오케스트레이터는 다음 질의에 대해 세 가지 중요한 단계를 수행해야 합니다:

가장 중요한 정보가 무엇인지 결정합니다.
히스토리를 압축하거나 요약합니다.
관련 히스토리를 프롬프트에 다시 주입합니다.

맞춤형 에이전트를 구축하는 개발자에게는, 이러한 핵심 오케스트레이션 레이어가 하이퍼스케일 AI 어시스턴스가 제공하는 API를 통합하더라도 기본적으로 제공되지 않습니다. 직접 구축해야 하며, 바로 이 필요성에서 MemCortex 아이디어가 탄생했습니다.

MemCortex가 다르게 하는 일

핵심 차이점은 MemCortex가 시맨틱 메모리 레이어라는 점이며, 단순히 이전 대화를 모두 나열하는 것이 아니라 과거 메시지의 벡터 임베딩을 저장하고 벡터 검색을 통해 관련된 것만 가져옵니다. 이 아키텍처는 업계에서 알려진 Retrieval‑Augmented Generation (RAG) 패턴과 일치합니다.

MemCortex는 다음을 사용합니다:

Ollama – 로컬에서 오픈소스 nomic-embed-text 임베딩 모델을 실행해 빠르고 프라이버시를 보장하는 벡터를 생성합니다.
Weaviate – 벡터 저장 및 인덱싱을 담당합니다.

모든 구성 요소가 하나의 Docker 컨테이너에 패키징되어 있어, MemCortex는 로컬, 서버, 클라우드 어디서든 실행 가능한 휴대성과 커스터마이징이 가능한 메모리 레이어가 됩니다. 단일 /chat 엔드포인트만 노출되므로, MemCortex는 애플리케이션을 위한 컨텍스트‑풍부 미들웨어 역할을 합니다.

작동 원리 (고수준)

High‑level architecture of how MemCortex is used

Ingestion (수집)

새로운 메시지나 이벤트를 모두 받아들입니다.
Ollama를 통해 nomic-embed-text 모델로 임베딩 벡터를 생성합니다.
원본 텍스트, 벡터, 그리고 메타데이터(예: 타임스탬프)를 저장합니다.

Retrieval (검색)

새로운 사용자 질의가 도착합니다.
질의를 임베딩합니다.
Weaviate에서 벡터 검색을 수행합니다.
상위 k개의 유사 아이템을 “메모리”로 가져옵니다.
이 관련 메모리만 LLM 컨텍스트에 다시 주입합니다.

이 과정은 엔터프라이즈 AI 시스템이 장기 일관성을 유지하는 방식을 반영하지만, MemCortex는 가볍고 개발자 친화적인 버전을 제공합니다.

내가 이것을 만든 이유: 에이전트의 메모리 문제 해결

정교한 AI 에이전트를 구축할 때는 세 가지가 필요합니다:

장기 기억 – 세션을 넘어 중요한 사실을 기억합니다.
관련성 – 현재 작업과 관련된 컨텍스트만을 검색합니다.
효율성 – 매 프롬프트마다 전체 대화를 넣지 않습니다.

MemCortex는 다음과 같은 구체적인 기능으로 이 요구를 충족합니다:

관련성 점수 – 구성 가능한 벡터 거리 점수와 관련성 임계값.
최대 메모리 거리 – 환경 변수를 통해 높은 유사도 메모리만 반환하도록 조정 가능.
영속성 – Weaviate가 프로세스 재시작 이후에도 메모리를 보관, 실전 에이전트에 필수적.
플러그인형 백엔드 – 임베딩 모델, 벡터 스토어 교체 또는 커스텀 랭킹 로직 추가가 용이.

현재 MemCortex가 위치한 곳

MemCortex는 개념 증명(POC) / 프로덕션‑레디 스캐폴드이며, 다음과 같은 용도에 강력한 기반을 제공합니다:

AI 에이전트
고객 지원 봇
워크플로우 어시스턴트
지식‑증강 채팅 시스템
메모리‑RAG 프로토타입

단순하고 유연하게 설계되었으며, 주변 애플리케이션 로직에 대해 의도적으로 입장을 취하지 않습니다.

제한 사항

강력한 스캐폴드이지만, 독립 컴포넌트로서 다음과 같은 제약이 있습니다:

확장성 및 속도는 선택한 스토리지/인덱싱 솔루션에 전적으로 의존합니다.
정확도와 관련성은 임베딩 품질 및 검색 로직에 달려 있습니다.
영속성, 백업, 보안은 컨테이너를 통합하는 개발자의 책임입니다.
비용은 스토리지, 임베딩 생성, 검색 빈도에 따라 증가합니다.
검색 로직을 넘어선 추론, 요약, 우선순위 지정 기능은 기본 제공되지 않으며 직접 구현해야 합니다.

향후 개선 사항

시스템을 발전시키기 위한 잠재적 다음 단계는 다음과 같습니다:

시간 기반 점수(최근성 감소)
메모리 요약
토픽 클러스터링(보다 효율적인 검색을 위해)
메모리당 다중 벡터
이벤트‑드리븐 메모리(“의미 있는 메시지만 저장”)
감정/컨텍스트 태깅

LangMem 같은 기존 오픈소스 프로젝트는 대화에서 중요한 정보를 추출하고, 프롬프트 정제를 통해 에이전트 행동을 최적화하며, 장기 메모리를 유지하는 도구를 제공합니다.

결론

MemCortex는 AI‑구동 애플리케이션에 지속적이고 시맨틱한 메모리를 제공해 단기 채팅 파트너에서 장기적인 능력을 갖춘 에이전트로 전환시키는 작은 그러나 핵심적인 단계입니다. AI 에이전트가 점점 더 강력해짐에 따라, 이러한 시스템은 단기 컨텍스트와 진정한 장기 추론 사이의 격차를 메우는 역할을 할 것입니다. 시스템을 확장·최적화·통합하고 싶은 분들을 위해 소스 코드는 GitHub에서 확인할 수 있습니다.

Memcortex 내부: LLM을 위한 경량 시맨틱 메모리 레이어

왜 컨텍스트가 중요한가

MemCortex가 다르게 하는 일

작동 원리 (고수준)

Ingestion (수집)

Retrieval (검색)

내가 이것을 만든 이유: 에이전트의 메모리 문제 해결

현재 MemCortex가 위치한 곳

제한 사항

향후 개선 사항

결론

관련 글

프롬프트 길이 vs. 컨텍스트 윈도우: LLM 성능 뒤의 실제 한계

LLM에 가드레일을 적용하세요

Anthropic Skills. 새로운 모델 및 아키텍처를 위한 전반적 상황

프롬프트에서 행동으로: Google & Kaggle AI Agents 부트캠프를 통한 나의 여정