Semantic Layer vs. Data Catalog: 보완적이며 경쟁하지 않음
I’m happy to translate the article for you, but I’ll need the text of the article itself (the content you’d like translated). Could you please paste the article’s content here? Once you provide it, I’ll translate it into Korean while preserving the formatting, markdown, and any code blocks or URLs unchanged.
데이터 카탈로그
데이터 카탈로그는 조직의 데이터 자산을 검색할 수 있는 인벤토리이며, 데이터에 대한 도서관 카드 시스템이라고 생각하면 됩니다. 어떤 데이터가 존재하는지, 어디에 저장되어 있는지, 누가 소유하고 있는지, 시스템을 통해 어떻게 흐르는지를 알려줍니다.
주요 기능
- 검색 – 키워드, 태그, 소유자 등을 통해 테이블, 뷰, 파일, 대시보드를 찾을 수 있습니다.
- 계보 – 데이터가 원본에서 목적지까지 이동하는 경로와 그 사이에 발생하는 모든 변환 과정을 추적합니다.
- 거버넌스 메타데이터 – 데이터 품질 점수, 분류(PII, 기밀) 및 컴플라이언스 상태를 관리합니다.
- 문서화 – 자산에 대한 설명을 저장하며, 이는 종종 데이터 생산자와 소비자가 공동으로 작성합니다.
데이터 카탈로그는 본질적으로 수동 시스템입니다. 검색하고, 탐색하고, 읽기만 할 수 있으며, 쿼리 실행 방식이나 메트릭 계산 방법을 변경하지 않습니다. 단순히 데이터에 관한 정보를 조직화할 뿐입니다.
시맨틱 레이어
시맨틱 레이어는 데이터가 의미하는 바와 올바르게 사용하는 방법을 정의합니다. 이는 활성화된 시스템으로, 원시 데이터와 이를 조회하는 도구 사이에 위치합니다.
주요 기능
- 지표 정의 – 매출, 이탈률, 활성 사용자 등—모든 곳에서 동일한 방식으로 계산됩니다.
- 쿼리 변환 – 비즈니스 질문을 최적화된 SQL로 변환합니다.
- 접근 제어 – 행 수준 보안 및 열 마스킹을 쿼리 시점에 적용합니다.
- 문서화 – 뷰와 컬럼에 연결된 위키와 라벨을 제공합니다.
사용자가 “지역별 매출은 얼마였나요?”라고 물으면, 시맨틱 레이어는 “매출”을 올바른 SQL 식으로 변환하고, 적절한 테이블을 조인하며, 보안 필터를 적용한 뒤 결과를 반환합니다.
비교
| 항목 | 데이터 카탈로그 | 시맨틱 레이어 |
|---|---|---|
| 답변되는 주요 질문 | “우리는 어떤 데이터를 가지고 있나요?” | “이 데이터는 무엇을 의미하나요?” |
| 시스템 동작 | 수동 (검색 및 탐색) | 능동 (쿼리 변환) |
| 범위 | 자산 전반에 걸친 모든 메타데이터 | 비즈니스 정의, 메트릭, 보안 |
| 계보 | 데이터 흐름을 추적 | 계산 로직을 정의 |
| 쿼리 실행 | 쿼리를 실행하지 않음 | 쿼리를 변환하고 최적화 |
| 접근 제어 | 정책을 문서화 | 쿼리 시점에 정책을 적용 |
왜 두 가지가 모두 필요한가
- 시맨틱 레이어가 없는 카탈로그 – 사용자는 데이터를 찾지만 올바르게 사용하는 방법을 모릅니다. 자체 매출 공식을 작성할 수 있어 조직 전체에 일관성이 없게 됩니다.
- 카탈로그가 없는 시맨틱 레이어 – 사용자는 레이어가 적용된 데이터셋에 대해 정확하고 관리된 쿼리를 얻지만, 레이어 외부의 데이터셋을 발견할 수 없습니다. 새로운 소스, 실험 테이블, 원시 파일은 수동으로 추가될 때까지 보이지 않습니다.
가장 효과적인 아키텍처는 두 가지를 모두 통합합니다:
- 발견 및 라인리지는 모든 자산에 대해 카탈로그가 담당합니다.
- 의미, 계산 및 거버넌스는 비즈니스 핵심 데이터셋에 대해 시맨틱 레이어가 담당합니다.
통합 시스템은 데이터 발견과 비즈니스 컨텍스트가 나란히 존재하는 단일 인터페이스를 제공합니다. 카탈로그에서 데이터셋을 검색한 뒤, 해당 시맨틱 레이어 정의(지표 공식, 문서, 라벨, 접근 정책)를 카탈로그 메타데이터(라인리지, 품질, 소유자)와 함께 확인할 수 있습니다.
통합 예시: Dremio
Dremio는 Open Catalog(Apache Polaris 기반, 오픈소스 Iceberg REST 카탈로그 표준)와 의미 계층 기능을 결합합니다:
- Open Catalog – 테이블, 뷰, 소스 및 그 계보에 대한 인벤토리.
- Virtual datasets (SQL views) – 비즈니스 로직 및 메트릭 계산을 정의합니다.
- Wikis – 각 데이터셋 및 컬럼이 의미하는 바를 문서화합니다.
- Labels – 데이터 거버넌스와 검색성을 위해 태그를 지정합니다(PII, Finance, Certified).
- FGAC – 쿼리 시점에 행/열 보안을 적용합니다.
AI 에이전트의 이점
AI 에이전트는 이 통합을 직접 활용할 수 있습니다:
- 카탈로그를 사용해 사용 가능한 데이터셋을 탐색합니다(예: “Sales 공간에 어떤 테이블이 있나요?”).
- 의미 계층을 활용해 정확한 쿼리를 생성합니다(예: “Revenue가 무엇을 의미하며, 누가 어떤 행을 볼 수 있나요?”).
이 중 하나라도 빠지면 AI는 사용 가능한 데이터를 알지 못하거나 잘못된 SQL을 생성하게 됩니다.
빠른 자가 점검
현재 데이터 카탈로그를 열고 비즈니스에 중요한 테이블을 선택하세요:
- 키 메트릭이 어떻게 계산되는지 확인할 수 있나요?
- 누가 어떤 행에 접근할 수 있나요?
- 컬럼 이름이 비즈니스 용어로 무엇을 의미하나요?
카탈로그에 테이블이 존재한다는 것만 표시된다면, 의미 계층이 메우는 격차를 발견한 것입니다.