제품 문서를 고객의 Chat Client로 전송하세요

발행: (2026년 3월 16일 오후 07:38 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

위 링크에 있는 전체 글을 번역하려면, 번역하고 싶은 본문을 제공해 주시겠어요?
본문을 그대로 붙여 주시면, 코드 블록·URL·기술 용어는 그대로 두고 마크다운 형식을 유지한 채 한국어로 번역해 드리겠습니다.

환각 방지

Modern LLM chat clients search the web. That works for general knowledge, but it’s a problem for your product because internal documentation isn’t public. Web search returns whatever ranks highest, not necessarily the authoritative version your customer is using.

Result: customers ask their AI assistant about your product and receive plausible‑sounding wrong answers.
Fix: give the AI access to your actual docs with correct info at query time.

왜 RAG가 안 될까?

RAG(검색‑증강 생성)는 다음 중 하나를 필요로 합니다:

  • 고객이 검색 파이프라인을 구축하고 유지 관리 또는
  • 공급업체가 벡터 DB, 임베딩 모델, 그리고 연중무휴 24시간 작동하는 검색 API를 호스팅하여 연간 몇 차례만 변경되는 문서 코퍼스를 지원하도록 함.

어느 쪽이든 인프라 비용은 문제에 비해 과도합니다.

Source:

디자인 결정: 문서를 MCP 서버에 번들링하기

MCP (Model Context Protocol)는 도구와 데이터 소스를 AI 채팅 클라이언트에 연결하기 위한 표준입니다.

결정: 문서를 MCP 서버에 직접 컴파일합니다.

  • 외부 데이터베이스 없음.
  • 임베딩 파이프라인 없음.

고객은 서버에 연결하고, AI는 실제 매뉴얼에서 직접 가져온 정확하고 최신 제품 문서에 즉시 접근할 수 있습니다—웹이 아니라 실제 매뉴얼을 소스로 사용합니다. 인덱싱 작업은 공급자가 릴리스 시점에 한 번 수행합니다.

Doc Search 작동 방식: 인덱스 탐색, 벡터 유사성 아님

이 접근 방식은 두 부분으로 구성됩니다: 사전 처리 단계(릴리스 시 한 번 실행)와 MCP 서버를 통해 노출되는 런타임 도구.

사전 처리 — 문서 이해 및 조직화

  • 릴리스 전에 전체 문서 세트를 처리하고 문서 구조를 포착하는 인덱스를 생성합니다.
  • 전체 문서와 이 인덱스는 MCP 서버에 컴파일됩니다.

런타임 — LLM이 콘텐츠를 찾고 검색하도록 하는 도구

  • MCP 서버는 채팅 클라이언트가 인덱스에 접근할 수 있는 도구를 제공합니다.
  • 사용자가 질문을 하면 LLM이 이러한 도구를 호출하여:
    1. 인덱스를 탐색하고 관련 섹션을 식별합니다.
    2. 바이너리에서 전체 섹션(조각이 아닌)을 그대로 가져옵니다.

외부 호출도, 데이터베이스도 없습니다. LLM은 질문을 올바른 섹션과 매칭하고 권위 있는 콘텐츠를 기반으로 답변을 생성할 수 있습니다.

엔드‑투‑엔드 흐름

고객이 “ABC 제품에서 사용자를 어떻게 만들나요?” 라고 물으면, 상호작용은 다음과 같습니다:

Customer          Claude            MCP Server         Docs (binary)
   |                 |                   |                   |
   |  "How do I      |                   |                   |
   |  create a user?"|                   |                   |
   |---------------->|                   |                   |
   |                 |  get_index()      |                   |
   |                 |------------------>|                   |
   |                 |                   |-- read index ---->|
   |                 |                   |                   |
   |                 |                   |-- read section -->|
   |                 |                   |  Users            |
   |<----------------|                   |                   |

Claude가 추측하거나 웹을 검색하는 일은 전혀 없습니다. 모든 단계는 MCP 서버에 컴파일된 문서에 기반합니다.

비용 비교

항목RAGMCP의 번들 문서
인프라스트럭처벡터 DB + 임베딩 모델없음
지속 비용호스팅 + API 호출제로
고객 설정검색 파이프라인 구축서버를 한 번 연결
검색된 콘텐츠조각, 청크 경계전체 섹션, 온전함
도메인‑특정 쿼리 정확도청크 전략에 따라 다름높음 — 의도 매치 인덱스

배포

바이너리를 MCPB 파일로 패키징합니다—서버와 매니페스트를 포함하는 번들이며, 제품 릴리스와 함께 제공됩니다. 고객은 이를 채팅 클라이언트에 한 번만 가져옵니다. 서버는 채팅 클라이언트와 함께 로컬 서브프로세스로 STDIO 모드에서 실행됩니다. 클라우드도, 개방 포트도, 별도 설정도 필요 없습니다.

Takeaway

고객이 AI 채팅 클라이언트를 사용하고 있다면 (그리고 실제로 사용하고 있다면), 이미 제품에 대해 질문하고 있습니다. 선택은 그 답변이 문서에서 나오는가, 아니면 웹상의 다른 곳에서 나오는가입니다.

문서를 MCP 서버에 번들링하면 올바른 답변이 기본 답변이 되며, 고객은 별도의 설정이 필요 없고 귀사 측에서도 지속적인 인프라 비용이 발생하지 않습니다.

0 조회
Back to Blog

관련 글

더 보기 »

트라비고

Gemini와 함께 말하는 속도만큼 빠르게 여행하세요! 라이브 에이전트가 몰입형 스토리텔링 및 3D 내비게이션과 만나는 곳. 이 프로젝트는 Gemini Live Ag...에 진입하기 위해 만들어졌습니다.