AI 에이전트는 벡터 데이터베이스만이 아니라 터미널이 필요하다.
Source: VentureBeat
에이전트 기반 워크플로가 실패할 때, 개발자들은 종종 문제의 원인을 기본 모델의 추론 능력에 돌립니다. 실제로는 검색 인터페이스가 제공하는 제한된 정보가 주요 제한 요인인 경우가 많습니다.
여러 대학의 연구진은 직접 코퍼스 상호작용(Direct Corpus Interaction, DCI) 이라는 기법을 제안했습니다. 이 기법은 에이전트가 임베딩 모델을 전혀 거치지 않고, 표준 명령줄 도구를 사용해 원시 코퍼스를 직접 검색하도록 합니다.
클래식 검색의 한계
클래식 검색 시스템(RAG 등)에서는 문서를 청크로 나누고, 벡터 표현(임베딩)으로 변환한 뒤 오프라인으로 벡터 데이터베이스에 색인합니다. AI 시스템이 질의를 처리하면, 리트리버가 전체 데이터베이스를 필터링해 질의와 일치하는 문서 조각들의 순위가 매겨진 “top‑k” 리스트를 반환합니다. 모든 증거는 하위 추론이 이루어지기 전에 이 점수 매기기 메커니즘을 통과해야 합니다.
하지만 현대 에이전트 애플리케이션은 훨씬 더 많은 것을 요구합니다. DCI 논문 저자들이 VentureBeat에 제공한 코멘트에 따르면, “조밀 검색은 넓은 의미적 회상에 매우 유용하지만, 에이전트가 다단계 작업을 해결해야 할 때는 정확한 문자열, 숫자, 버전, 오류 코드, 파일 경로 혹은 희소한 단서들의 조합을 찾아야 합니다. 이러한 롱테일 세부 사항은 의미적 유사성이 깨지기 쉬운 지점입니다.”
정적 검색과 달리, 에이전트는 부분적이거나 국지적인 증거를 관찰한 뒤 검색 계획을 동적으로 수정해야 합니다. 정확한 어휘 제약과 다단계 가설 정제는 의미 기반 리트리버로는 실행하기 어렵습니다. 리트리버가 접근을 한 단계로 압축해 버리면, 유사도 검색에 의해 필터링된 중요한 증거는 이후 어떤 고급 추론 능력을 갖추더라도 복구할 수 없습니다. 저자들이 설명하듯, 현재의 검색 파이프라인은 “에이전트가 무엇을 볼 수 있는지를 너무 일찍 결정”하기 때문에 병목이 될 수 있습니다.
직접 코퍼스 상호작용
이 직접 접근 방식은 기업 환경에서 흔히 겪는 데이터 신선도 문제를 해결합니다. 임베딩 인덱스는 언제나 특정 시점의 스냅샷이며, 이를 구축·유지하는 데 상당한 연산 비용과 시간이 소요됩니다.
“많은 기업 환경에서 데이터는 안정된 문서 컬렉션이 아닙니다. 일일 재무 보고서, 실시간 로그, 티켓, 코드 커밋, 설정 파일, 사고 타임라인, 그리고 지속적으로 변하는 내부 문서들이 전부입니다.”라고 저자들은 말합니다. DCI는 에이전트가 어제의 벡터 인덱스가 아니라 현재 작업 공간의 상태를 기반으로 추론하도록 합니다.
에이전트는 터미널과 유사한 환경에서 작동하며, 관찰 결과는 파일 경로, 매치된 텍스트 구간, 주변 라인 등 원시 도구 출력입니다. DCI가 제공하는 핵심 도구는 적지만 매우 표현력이 풍부합니다. 에이전트는 find·glob 같은 명령으로 디렉터리 구조를 탐색하고 파일을 찾으며, 정확한 매치를 위해 grep·rg 로 키워드, 정규식, 정확한 문자열을 검색합니다. 로컬 검사가 필요할 때는 head, tail, sed, cat, 가벼운 Python 스크립트를 사용해 매치 주변 컨텍스트를 살펴보거나 특정 파일 섹션을 읽을 수 있습니다.
에이전트는 이러한 도구들을 쉘 파이프라인으로 결합해 복잡한 검색 로직을 한 번에 실행할 수 있습니다. 예를 들어, 파일에서 첫 번째 용어를 검색한 뒤 그 출력을 두 번째 용어 검색에 파이프해 엄격한 어휘 제약을 강제할 수 있습니다. 또한 “report” 같은 키워드와 “2024” 같은 연도를 조합해 특정 파일 유형을 찾고, 여러 약한 단서를 동시에 활용할 수 있습니다. 가설을 즉시 검증하려면 키워드 매치 주변 라인을 직접 확인하면 됩니다.
DCI는 의미적 해석을 에이전트에게 직접 위임하고, 임베딩 기반 유사도 검색에 의존하지 않습니다. 에이전트는 가설을 세우고, 정확한 어휘 패턴을 테스트하며, 전통적인 의미 기반 리트리버가 놓칠 수 있는 상세 정보를 추출합니다.
연구진은 두 가지 버전을 제안합니다.
- DCI‑Agent‑Lite – GPT‑5.4 nano 모델을 기반으로 한 가볍고 저비용 설정이며, 순수 터미널 상호작용(예: bash 명령, 기본 파일 읽기)만 허용합니다. 원시 파일을 읽는 과정에서 작은 모델의 메모리가 빨리 차기 때문에, 장기 탐색을 지속하기 위해 경량 런타임 컨텍스트 관리 전략을 사용합니다.
- DCI‑Agent‑CC – 더 높은 성능을 목표로 하며, Claude Sonnet 4.6 기반의 Claude Code 위에서 동작합니다. Claude Code는 강력한 프롬프트, 견고한 도구 오케스트레이션, 우수한 내장 컨텍스트 처리를 제공해, 이질적인 데이터셋을 가로지르는 복잡하고 다단계 검색 중 에이전트의 안정성을 크게 향상시킵니다.
실제 DCI 적용
연구진은 BrowseComp‑Plus, 단일·다중 홉 추론이 필요한 지식‑집중 QA, 도메인‑특화 추론 및 과학적 사실 검증이 요구되는 정보 검색 순위 등 에이전트 기반 검색 벤치마크에서 두 버전을 모두 테스트했습니다.
비교 대상은 세 가지 베이스라인이었습니다.
- 오픈‑웨이트 검색 에이전트 – Search‑R1 등과 GPT‑5·Claude Sonnet 4.6 같은 최첨단 모델을 사용한 독점 에이전트, 표준 리트리버와 결합.
- 클래식 스파스·조밀 리트리버 – BM25와 OpenAI
text‑embedding‑3‑large, Qwen3‑Embedding‑8B 등. - 고성능 추론‑지향 재랭커 – ReasonRank‑32B, Rank‑R1 등.
연구 결과, DCI는 모든 베이스라인을 체계적으로 능가했습니다. 복잡한 BrowseComp‑Plus 벤치마크에서는 전통적인 Qwen3 의미 리트리버를 Claude Sonnet 4.6 백본에 DCI로 교체함으로써 정확도가 69.0 %에서 80.0 %로 상승했으며, API 비용은 $1,440에서 $1,016으로 감소했습니다. 가벼운 에이전트의 투자 대비 효과도 눈에 띄었습니다. GPT‑5.4 nano 기반 DCI‑Agent‑Lite는 전통적인 검색을 사용하는 OpenAI o3 모델과 경쟁하면서 비용을 $600 이상 절감했습니다.
다중 홉 QA 벤치마크에서는 DCI‑Agent‑CC가 평균 정확도 83.0 %를 기록했으며, 가장 강력한 오픈‑웨이트 검색 베이스라인보다 30.7 포인트 앞섰다고 연구진은 보고했습니다.
데이터에 따르면 DCI는 조밀 임베딩 모델보다 전체 문서 회수율은 낮지만, 일단 관련 문서를 찾으면 그 문서에서 훨씬 더 많은 가치를 추출합니다.
“기업 AI 책임자가 DCI가 가장 명확히 유용한 상황을 물었다면, 저는 동적인 작업 공간에서 정확한 증거 위치 파악이 필요한 작업을 꼽겠습니다: 프로덕션 사고 디버깅, 대규모 코드베이스 검색, 로그 분석, 컴플라이언스 조사, 감사 추적, 혹은 다문서 근본 원인 분석 등.”라고 연구진은 강조합니다.
한 복잡한 심층 연구 과제에서는 에이전트가 12개의 얽힌 단서를 통해 특정 축구 경기(정확한 관중 수, 옐로 카드, 선수 출생일 등)를 식별해야 했습니다. 전통적인 리트리버는 짧고 단절된 스니펫만 제공해 실패했지만, DCI 에이전트는 파일 디렉터리를 탐색하고 1990년 영국 vs 벨기에 경기 보고서의 특정 라인을 읽어 교체 횟수를 확인했으며, 인터뷰 파일에서 특정 인용구를 추출하고, 위키피디아 텍스트 파일을 살펴 두 선수의 정확한 출생일을 검증했습니다. 이러한 간단한 명