지식·권위 계층: 외부에서 에이전트가 얻을 수 없는 것
출처: Dev.to
현재 모든 기업 AI 대화는 동일한 위치에서 시작됩니다: “모델을 우리 데이터와 연결하는” 것이죠. 그 후 동일한 지점에서 막히게 됩니다: 어떤 데이터인지, 어디에 복사되었는지, 누구에게 의해 관리되는지입니다.
저는 검색을 직업으로 하고 있습니다(원본 오픈소스 SWIRL을 만들었습니다) 따라서 현재 기본에 반하는 주장을 펼치고, 그에 따른 아키텍처를 보여드리겠습니다.
표준 RAG 레시피는 다음과 같습니다: 소스를 크롤링하고, 청크로 나누고, 임베딩한 뒤 벡터를 데이터베이스에 로드합니다. 이제 모델이 검색할 수 있습니다. 또한 내용의 두 번째 복사본이 보안을 유지하고 동기화하며 합规 책임을 진 사람에게 설명해야 하는 인덱스에 존재하게 됩니다. 수동으로 모든 권한 경계를 재현했으며, 언젠가 틀릴 것입니다.
많은 팀에서는 복사가 허용되지 않습니다. 규제된 콘텐츠, 고객 기밀 자료, 특권이 있는 자료 등 — 벤더 스토어에 복사하는 것은 보상이 되지 않는 위험에 노출되는 것입니다.
여기에人们는 듣고 싶지 않은 부분이 있습니다. 메타의 XetHub 팀은 세 가지 검색 전략을 테스트했습니다: 키워드 전용(BM25), 벡터 전용, 그리고 하이브리드(키워드로 후보를 추출한 뒤 재순위링). 키워드 전용이 가장 늦게 나왔습니다. 벡터 전용이 더 좋았습니다.
하이브리드가 승리했으며, 그들의 결론은 직설적이었습니다: “벡터 데이터베이스 필요 없음.”
이것은 생산 환경에서도 일치합니다. 벡터 유사도는 정확한 필터로는 뛰어나지 않고, 첫 번째 통과에는 부적합합니다. 정확히 일치하는 termes와 따옴표를 먼저 제시하고, 그 뒤에 임베딩과 크로스 인코더가 나머지를 재순위링합니다.
이것은 슬로건이 아니라 파이프라인입니다. SWIRL에서는 관련성이 세 번의 통과를 거치며, 두 모델 모두 로컬에서 실행됩니다:
연합 및 매칭. 모든 연결된 소스를 병렬로 쿼리합니다 — 키워드 + BM25 — 그리고 따옴표 구문과 정확한 terme를 먼저 존중합니다.
임베딩 재순위링. E5-large-v2를 사용해 후보를 재순위링합니다. 제목 인식 청크링과 키워드+벡터 융합(RRF)을 적용합니다. 벡터 데이터베이스를 구축하거나 보안할 필요가 없습니다.
크로스 인코더 재순위링. MS-MARCO 크로스 인코더는 쿼리와 문서를 함께 읽고 벡터 거리보다는 실제 관련성을 점수화합니다.
그 결과를 선택한 LLM(어떠한 모델이든, 온프레미스 모델 포함)에게 전달하고, 답변이 개선됩니다. 이는 컨텍스트가 좋아졌기 때문입니다. 동일한 모델이 더 정확한 입력을 받습니다.
스택은 정착하고 있습니다: 기반 모델이 오케스트레이션을 담당하고, MCP가 검색 인터페이스를 제공하며, 채팅 UI는 흔히 사용되는 도구입니다. 외부에서 제공하는 pieza 중 하나가 지식 권위(정식 문서는 무엇인지, 조직에서 실제로 사용하는 조항은 무엇인지, 승인된 답변은 무엇인지)입니다.
그래서 우리는 이를 1급 레이어로 만들었습니다. SWIRL 5는 MCP 서버를 공개합니다. Claude, Copilot, ChatGPT, 자체 에이전트 등 어떤 에이전트든 SWIRL을 호출해 순위 매김된, 권한이 부여된, 조직 승인 답변을 받습니다. 팀은 쿼리_once에 정식 결과를 고정하고, 이후 모든 에이전트가 그 결과를 사용합니다. 또한 데이터가 나가지 않습니다.
다음 세 가지 특성이 나오며, 이것이 구축한 이유입니다:
아키텍처적으로 개인적입니다. 데이터는 그대로 유지되고, 권한은 실시간으로 적용되며, 두 번째 인덱스를 관리할 필요가 없습니다.
추측이 아닌 정답. 크로스 인코더 랭킹과 정식 답변을 통해 사용자와 에이전트는 조직이 신뢰하는 결과를 받습니다.
AI에 대한 안전한 온보로드. 헤드리스이며 MCP 네이티브로 배포되며, 조직 내에서 가장 낮은 위험으로 에이전트에게 엔터프라이즈 수준의 접근을 제공합니다.
기업 데이터와 에이전트를 연결하고 “모든 것을 벡터 스토어에 복사한다”는 단계가 보안 팀을 긴장시키는 경우, 다른 형태가 있습니다. SWIRL 5는 7월 15일에 GA(일반 출시)를 진행하며, 자체 스택에 적용해 볼 수 있는 프리뷰가 공개됩니다. 어느 경우든 — 진심으로 귀하의 권한 문제 해결 방법을 듣고 싶습니다. 산업이 아직 이를 완전히 이해했다고 생각하지 않습니다.
Sid Probstein은 SWIRL의 창시자이자 SWIRL AI의 CEO입니다.