SQL 쿼리 로그는 AI 에이전트가 조인 환상을 멈추는 데 필요한 컨텍스트를 제공한다
Source: VentureBeat
번역을 진행하려면 번역하고자 하는 전체 텍스트를 제공해 주세요. 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.
Miro’s AI Agent Struggle with Snowflake
Miro의 데이터 팀이 AI 에이전트를 Snowflake 환경에 직접 연결했을 때, 에이전트는 65 % 이상의 비율로 잘못된 답을 반환했습니다. 문제는 모델이 아니라 컨텍스트였습니다. 10,000개가 넘는 테이블과 라우팅을 안내할 의미론적 레이어가 없었기 때문에, 에이전트는 어떤 데이터 자산이 어떤 비즈니스 질문에 해당하는지 알 방법이 없었습니다.
DataHub는 기존 SQL 쿼리 히스토리를 분석해 의미론적 인덱스를 구축하고, 이를 MCP, LangChain, Google’s Agent Development Kit, 그리고 CrewAI를 통해 에이전트에 제공하는 Context Intelligence 레이어를 (목요일) 출시합니다. 이 회사는 이를 Context Intelligence라 부르며, 전 세계 프로덕션 배포에서 라인리지 추적에 사용해 온 동일한 쿼리‑로그 인프라 위에 구축되었습니다.
DataHub의 배후는?
- Founders: LinkedIn에서 오픈‑소스 프로젝트로 DataHub를 만든 팀.
- Co‑founder & CTO: Shirshanka Das, LinkedIn의 데이터 인프라를 거의 11 년간 이끌었습니다.
- Open‑source impact: 전 세계적으로 15,000명 이상의 기여자와 3,000건 이상의 프로덕션 배포.
“처음으로 기업은 수년간의 분석가 쿼리 기록을 살아있는, 검색 가능한 지식 베이스로 전환할 수 있게 되었으며, 에이전트는 이전에 성공적으로 수행된 조인에 접근하고 이를 실행한 사람들에 의해 검증되었기 때문에 조인에 대한 환상을 멈출 수 있습니다,”
— Shirshanka Das, DataHub 공동 설립자 겸 CTO (VentureBeat 독점).
Why Query History Beats Raw Schema for Agent Routing
DataHub는 LinkedIn에서 메타데이터 관리 프로젝트로 시작했으며, 두 가지 문제를 동시에 해결하기 위해 구축되었습니다:
- 조직 전체에서 데이터를 쉽게 찾고 사용할 수 있게 하기.
- 데이터가 올바른 이유로 사용되도록 보장하기 (거버넌스, 컴플라이언스).
Das는 거의 6년간 내부 개발을 거친 뒤 2020년 초에 이 프로젝트를 오픈소스로 공개했습니다.
출시 이후 주요 사용 사례
- 라인리지: 운영 시스템 → 스트리밍 인프라 → 데이터 웨어하우스 → 비즈니스 도구로 데이터가 흐르는 과정을 이해합니다.
- 규제 준수 감사
- 운영 트리아지
- 신입 엔지니어 온보딩
전 세계 DataHub 배포 기반에서 가장 많이 연결된 소스: Postgres, 그 다음은 MySQL, Oracle, 그리고 주요 클라우드 웨어하우스(Snowflake, Google BigQuery).
현재 플랫폼은 100개 이상의 연결된 메타데이터 소스를 지원합니다.
릴리스 배경
Context Intelligence를 구동하는 쿼리 로그 추출 및 SQL 파싱 기능은 수년간의 프로덕션 배포를 통해 개발된 것으로, 이번 릴리스를 위해 새롭게 만든 것이 아닙니다. 동일한 인프라가 이제 런타임에 의미 인덱스를 쿼리하는 에이전트에게도 제공됩니다.
“소비 레이어가 인간에서 에이전트로 바뀌었다,” – Das.
Context Intelligence: 검증된 쿼리 히스토리 마이닝, 원시 로그가 아니라
무엇인가
- 새로운 기능 레이어로, DataHub의 기존 오픈‑소스 메타데이터 기반 위에 구축되었습니다.
- 수년간 축적된 인프라를 활용하여 쿼리 로그를 추출·파싱하고 라인리지 추적에 사용합니다.
작동 방식
| 단계 | 설명 |
|---|---|
| 1️⃣ Filtering for signal | 데이터 웨어하우스 쿼리 로그에는 많은 잡음이 섞여 있습니다. DataHub는 “golden queries”— 고품질 분석가 쿼리와 검증된 비즈니스 로직을 나타내는 예약 파이프라인—을 필터링합니다. |
| 2️⃣ Inverting SQL into semantic definitions | 골든 쿼리에서 추출된 패턴을 semantic anchors(구조화된 텍스트 정의)로 변환합니다. 이 앵커들은 에이전트가 SQL을 생성하기 전에 참고하는 검색 기반이 됩니다. |
| 3️⃣ Human validation on top | Context Hub는 도메인 전문가가 AI가 제안한 컨텍스트를 검토하고, 상충되는 정의를 해결하며, 배포 전 영향을 시뮬레이션할 수 있게 합니다. DataHub는 서로 다른 팀이 동일한 지표를 다르게 계산하는 사례를 표면화하고, 인간이 해결하도록 제시합니다. |
“텍스트를 SQL로 역변환하는 것이라고 거의 생각할 수 있습니다,” – Das
Source: …
Miro가 10,000개의 Snowflake 테이블에서 AI 에이전트를 작동시킨 방법
- 배경: Miro는 이미 DataHub를 사용해 라인리지 추적 및 영향 분석을 수행하고 있었습니다.
- 문제: Snowflake의 MCP에 직접 자연어 질의를 하면 65 % 이상이 잘못된 답변을 반환했습니다. 10,000개가 넘는 테이블을 에이전트에 직접 노출하면 라우팅 혼란이 크게 발생했습니다.
솔루션
- 에이전트가 볼 수 있는 범위를 제한하는 명확히 정의된 데이터 제품으로 데이터를 조직화하고, 원시 스키마를 직접 노출하지 않음.
- 프로덕션 아키텍처:
- 사용자 요청 → Claude Chat / Claude Cowork → 컨텍스트 레이어 (DataHub의 MCP가 자연어를 적절한 데이터 자산에 매핑) → Snowflake MCP를 통해 SQL 생성.
“컨텍스트 레이어는 메타데이터, 엔터티 관계, 쿼리 히스토리 및 각 Snowflake 테이블에 대한 비즈니스 의도를 가져와, 각 엔터티가 답변하도록 설계된 비즈니스 질문을 명시합니다,” – Ronald Angel, 제품 매니저, 데이터 플랫폼, Miro.
이러한 의미론적 신호를 통해 에이전트는 SQL을 작성하기 전에 올바른 데이터베이스 엔터티를 식별할 수 있어, 스키마만으로 추측하던 문제를 제거합니다.
DataHub가 더 넓은 컨텍스트 스택에서 차지하는 위치
| 벤더 / 플랫폼 | 제공 내용 | DataHub와의 관계 |
|---|---|---|
| Pinecone | 컨텍스트 메모리를 갖춘 벡터 스토어 | DataHub는 의미적 앵커를 Pinecone에 전달하여 검색에 활용할 수 있습니다. |
| Oracle | 데이터베이스 + AI 서비스 | DataHub는 쿼리 히스토리 컨텍스트를 통해 Oracle 메타데이터를 풍부하게 만들 수 있습니다. |
| Redis | 벡터 기능을 갖춘 인‑메모리 스토어 | 의미적 앵커를 위한 빠른 캐시 역할을 합니다. |
| Microsoft Fabric IQ | 컨텍스트를 위한 시맨틱 레이어 | DataHub는 플랫폼 중립을 목표로 하여 Fabric IQ와 같은 기존 엔드포인트에 컨텍스트를 제공하고, 이를 대체하지는 않습니다. |
“많은 경우 사람들은 컨텍스트 레이어에 대해 플랫폼 중립을 원합니다,” – Das.
BARC의 애널리스트 Kevin Petrie는 VentureBeat와의 인터뷰에서 DataHub가 구조화된 데이터와 비구조화된 데이터를 모두 위한 다양한 메타데이터를 통합할 수 있는 능력이 신흥 컨텍스트 인텔리전스 시장에서 핵심 차별점이라고 평가했습니다.
컨텍스트 기반 데이터 관리
“많은 다른 벤더들은 신뢰할 수 있는 사실을 제공하지만 텍스트 객체의 풍부한 컨텍스트가 부족한 구조화된 테이블에 더 집중하고 있다”고 Michael Ni, Constellation Research 부사장 겸 수석 애널리스트가 말했다.
Ni는 DataHub의 컨텍스트 레이어가 수동적인 카탈로그에서 지속적으로 갱신되는 의미론적 인텔리전스로 전환된다고 강조했다. 그는 런타임에 컨텍스트를 제어하는 사람이 데이터, 에이전트, 워크플로우 및 의사결정에 대한 의사결정 레이어를 제어한다고 주장했다.
“구매자는 주의해야 한다. 많은 벤더들이 AI 및 에이전트 솔루션에 필요한 전체 컨텍스트 기능의 일부만 지원하기 때문이다.”라고 Ni는 말했다. “구매자는 컨텍스트 관리 요구사항을 명확히 해야 한다. 벡터 메모리는 비즈니스 의미가 아니며, 비즈니스 의미는 거버넌스가 아니고, 거버넌스는 실행이 아니다.”