우리는 구조화된 온톨로지와 Markdown+RAG를 AI 에이전트에 대해 테스트했습니다 — '왜?' 기억률은 0% 대 100%

발행: 1개월 전 (2026년 4월 4일 오후 09:17 GMT+9)

9 분 소요

원문: Dev.to

I’m happy to translate the article for you, but I’ll need the text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line exactly as you provided and preserve all formatting, markdown, and technical terms.

Source: …

“왜?”가 중요한 이유 – 그리고 우리가 해결한 방법

우리 AI 에이전트는 회사가 Provider A를 신원 확인에 사용한다는 것을 알고 있었습니다.
에이전트는 제공자를 이름으로 말하고, 통합 사양을 나열하며, 타임라인을 암송할 수 있었습니다.

왜 Provider A가 Provider B보다 선택되었는지 물었을 때, 에이전트는 답을 할 수 없었습니다—24번 시도 후 추론 질문에 대한 기억률 0 %.

격차

마크다운 문서 폴더를 활용한 RAG(검색 기반 생성)는 사실 질문을 잘 처리합니다:
- “어떤 모듈이 존재하나요?”
- “이 컴포넌트의 소유자는 누구인가요?”
- “이 결정은 언제 이루어졌나요?”
하지만 “왜?”는 다릅니다.
- 추론은 별개의 사실로 저장되지 않습니다.
- 회의 노트, 슬랙 스레드, 설계 문서 등에 흩어져 있습니다.
- 전략적 목표 → 운영적 결정 연결 고리는 단일 검색 가능한 청크로 나타나지 않습니다.

결과: 벡터 검색은 무엇이 일어났는지는 찾지만, 왜 일어났는지는 찾지 못합니다.

왜 중요한가

근거를 이해하지 못하는 에이전트는 기술적으로는 맞지만 조직적으로는 틀린 후속 결정을 내릴 수 있습니다—잘못된 목표에 최적화하거나, 암묵적인 제약을 위반하거나, 거부된 실수를 반복하는 경우가 발생합니다.

우리의 솔루션: 구조화된 추론 레이어

우리는 Markdown 문서를 교체하지 않았습니다.
우리는 비즈니스 추론을 쿼리 가능한 관계로 매핑하는 4단계 온톨로지를 추가했습니다:

LORE       (foundational beliefs, worldview)
   ↓ interpreted_into
VISION     (goals, priorities, boundaries)
   ↓ operationalized_into
RULES      (policies, decision rules, constraints)
   ↓ applied_to
OPERATIONS (initiatives, decisions, tasks)

각 연결은 명시적인 주장을 포함합니다—관계 뒤에 있는 “왜”를 나타냅니다.
따라서 에이전트는 모든 운영 의사결정을 그것을 정당화하는 기본 신념으로 추적할 수 있습니다.

예시 쿼리

질문: “왜 우리는 신원 확인을 위해 Provider A를 선택했나요?”

추적:

OPERATIONS → Chose Provider A (affordable, OIDC‑compatible)
   ← applied_to
RULES → Start with affordable identity provider, plan migration later
   ← operationalized_into
VISION → Build self‑service tools for micro‑entrepreneurs
   ← interpreted_into
LORE → Small business owners want to handle accounting themselves

확률적 검색이 아니라—버전 관리된 데이터베이스에 대한 SQL 쿼리.

기술 스택

Component	Role
Dolt	Git‑style 관계형 DB (branch, commit, diff, merge, PR). 모든 온톨로지 변경은 정식 채택되기 전에 인간 검토를 거칩니다.
MCP (Model Context Protocol)	AI 에이전트를 외부 도구와 연결하기 위한 사실상의 표준. 우리 서버는 18 tools: 쿼리를 위한 9개, 변경 제안을 위한 4개, 추론 엔벨로프 생성을 위한 3개, Dolt 버전 관리를 위한 2개를 제공합니다.

Experiment: Structured Ontology vs. Plain Markdown

Domain: SaaS 회사의 시장 확장 프로젝트.

Mode	Knowledge Source
A	Markdown 문서 + 파일 검색 도구 (RAG)
B	Structured ontology + Dolt + MCP 도구

48 세션 → 8가지 작업 유형 → 각 모드당 작업당 3회 실행.
두 명의 독립적인 LLM 심사자 (GPT‑5.4 & Claude Opus 4.5)가 모든 답변을 정답과 비교 평가함.

Results

Metric	Markdown + RAG	Structured Ontology
Entity recall	0.514	0.976 (+90 %)
“Why?” question recall	0.000	1.000 (0 % → 100 %)
Reasoning quality (1‑5)	1.96	4.33 (+121 %)
Stability (variance)	1.457	0.472 (≈ 3× 더 안정적)
Latency	284.6 s	183.8 s (35 % 더 빠름)
Pairwise wins	0	20 (4 무승부)

*핵심 요약: Mode A는 “why?” 회수에서 **0 %**를 기록했으며, Mode B는 **100 %*를 기록—통계적 잡음이 아닌 결정적인 차이.

Judge agreement: 83.3 %
Average judge confidence: 0.927

불일치는 여러 유효한 추론 경로가 존재하는 영향 분석 작업에서만 나타났음.

교훈

측면	관찰
정확도 vs. 오버헤드	구조화된 검색은 보다 정확하고, 빠르며, 더 안정적이었으며—일반적인 트레이드오프 가정과는 반대였습니다.
데이터 수집	온톨로지를 수동으로 채우는 것이 가장 해결되지 않은 어려운 문제입니다.
쓰기 경로	우리는 읽기만 테스트했습니다. 온톨로지 변경을 제안하는 기능은 설계되어 있지만 아직 벤치마크되지 않았습니다.
일반화	단일 도메인(개발 계획)에서 테스트했습니다. 다른 도메인이 다음 단계입니다.

EPICAL 인제스트 파이프라인

Source docs → EXTRACT → PONDER → INTERROGATE → CALIBRATE → AUTHENTICATE → LOAD

Extract & Ponder – 에이전트 주도: AI가 원본 문서에서 후보 객체와 관계를 제안합니다.
Interrogate & Calibrate – 신뢰 점수를 정제합니다.
Authenticate – 인간 게이트: Dolt diff 검토(코드 PR과 유사). 승인 후에 지식이 정식으로 등록됩니다.

Epistemic boundary: 에이전트는 인간 검증을 우회할 수 없습니다. promote_candidate 도구는 인증된 상태가 필요합니다.

OPS 계약 – 작업 항목에 컨텍스트 첨부

외부 시스템(Jira, GitHub, CI/CD)에서 작업이 발생할 때, 에이전트는 추론 엔벨로프를 생성할 수 있습니다:

generate_ops_contract(
    external_work_ref="jira://TASK-123",
    description="Prepare annual report for submission",
    contract_kind="annual_reporting"
)

계약은 실행 중인 에이전트에게 작업이 중요한 이유, 적용되는 규칙, 그리고 넘어서는 안 되는 경계를 알려줍니다—매번 전체 온톨로지를 조회할 필요 없이.

시작하기

전체 저장소는 오픈 소스입니다:

git clone https://github.com/Right-Reasons/right-reasons
cd right-reasons
docker compose up -d
cd mcp-server && pip install -e .

AI 에이전트를 MCP 서버에 연결하고 why를 물어보세요—올바른 이유와 함께.

Prompt

당신의 에이전트는 다음과 같이 물어봅니다:

“왜 우리는 Provider A를 Provider B보다 신원 확인에 선택했나요? ex_ops_02 객체 ID와 함께 get_explanation_packet 도구를 사용하세요.”

에이전트는 네 개의 레이어 전체에 걸친 추론 체인을 추적합니다.

Resources

📦 GitHub repo – link
🌐 Website – link
📝 Kaspar Loit이 작성한 배경 기사 – link
📊 전체 실험 결과 – link

Right Reasons는 MindWorks Industries에서 제작했습니다. 실제 기관 수준의 추론을 에이전트에 제공하고 싶은 초기 사용자를 찾고 있습니다. 연락처: .