추측을 멈춰라: 내가 만든 Observability Stack으로 실패하는 AI 에이전트를 디버그하기
Source: Dev.to

RAG 파이프라인은 블랙 박스입니다. 봇이 잘못된 컨텍스트를 가져오는 이유를 추측하는 데 지쳐서, 신뢰할 수 있고 관찰 가능한 벡터 검색 및 의미 콘텐츠 검증 엔진을 만들었습니다.
RAG와 LLM 검증은 AI 개발의 새로운 병목 현상입니다. 저는 MemVault(신뢰할 수 있는 하이브리드 벡터 검색용)와 ContextDiff(결정론적 AI 출력 검증용)를 만들었습니다. 문제는 관찰성(observability)이며, 여기 제가 제시한 해결책이 있습니다.
Tool 1: MemVault – The Observable Memory Server
복잡한 검색‑무결성 문제를 해결하기 위해 MemVault를 만들었습니다. 전용 벡터 데이터베이스를 구축하는 것은 많은 프로젝트에 과도한 부담이 되므로, 이미 사용하고 있는 PostgreSQL + pgvector 스택을 감싸는 견고하고 오픈‑소스인 Node.js 래퍼로 MemVault를 설계했습니다.
Hybrid Search 2.0: The End of Guesswork
대부분의 RAG 파이프라인은 의미 검색만 사용해 취약합니다. MemVault는 가중치가 적용된 3‑방향 하이브리드 점수로 신뢰성을 보장합니다:
| Component | Technique | Weight |
|---|---|---|
| Semantic (Vector) | pgvector를 이용한 코사인 유사도 | 50 % |
| Exact Match (Keyword) | ID, 오류 코드 등에 대한 Postgres tsvector 기반 BM25 | 30 % |
| Recency (Time) | 최신 메모를 우선시하는 감쇠 함수 | 20 % |
The Visualizer: Debugging in Real‑Time
MemVault는 검색이 진행되는 동안 벡터 검색을 시각화하는 대시보드를 제공합니다. 특정 문서가 왜 검색되었는지, 가중 점수가 어떻게 계산됐는지를 즉시 확인할 수 있습니다.
Live demo: (원문에서 링크가 생략됨)
Setup: Choose Your Economic Reality
- Self‑Host (MIT License) – Docker를 통해 전체 스택(Postgres + Ollama for embeddings)을 100 % 오프라인으로 실행합니다. 프라이버시와 API 비용이 전혀 들지 않는 환경에 최적입니다.
- Managed API (RapidAPI) – 호스팅 서비스를 이용해 유지보수와 인프라 구축을 건너뛸 수 있습니다(무료 티어 제공).
Quick Start (NPM SDK)
npm install memvault-sdk-jakops88
Tool 2: ContextDiff – Semantic Output Validation
MemVault가 올바른 컨텍스트를 가져오는 것을 보장한다면, ContextDiff는 LLM이 그 컨텍스트를 망치지 않도록 합니다.
Deterministic Semantic Verification
ContextDiff는 프로덕션 수준의 FastAPI/Next.js 모노레포로, LLM 기반 비교를 수행해 구조화된 평가를 제공합니다:
- Risk Scoring – 안전 여부를 판단하는 0‑100 객관적 위험 점수.
- Change Detection – 변경 유형을 구체적으로 표시하고 이유를 제시합니다:
- FACTUAL – 핵심 주장이나 확신 수준이 바뀐 경우(예: “will” → “might”).
- TONE – 감정이나 격식이 변한 경우.
- OMISSION/ADDITION – 정보가 누락되었거나 추가된 경우.
Why Simple Diff Fails
단순 diff 도구는 AI에 쓸모가 없습니다. ContextDiff는 “Q1 2024”를 “early 2024”로 바꾸는 것이 문자열 차이가 아니라 확신도의 의미 변화(위험)임을 감지합니다.
Use case: 법률, 의료, 금융 등 높은 위험도가 수반되는 콘텐츠 검증에서 원본의 의미적 무결성을 유지해야 할 때.
Demo: (원문에서 링크가 생략됨)
Conclusion: Stop Debugging in the Dark
신뢰할 수 있는 AI 엔지니어링의 미래는 관찰 가능하고 검증 가능한 시스템에 달려 있습니다. RAG 파이프라인을 블랙 박스로 취급하는 데 지쳤다면, 이 도구들을 살펴보세요.
- MemVault 소스 코드: (원문에서 링크가 생략됨)
- ContextDiff API & repository: (“ContextDiff” 검색)