AWS Glue Data Quality와 함께 신뢰할 수 있는 데이터
Source: Dev.to
날짜: 2025년 9월 27일
연사: Abinaya, AWS Community Builder
AWS Glue란?
AWS Glue는 서버리스 ETL (Extract, Transform, Load) 서비스로, 데이터를 한 위치에서 다른 위치(예: 데이터베이스에서 데이터 레이크로)로 이동하면서 변환을 수행하도록 도와줍니다.
핵심 기능
- Data crawler – 데이터를 자동으로 탐색하고 스키마를 추론합니다.
- Data catalog – 데이터 자산에 대한 메타데이터를 중앙에 저장하는 저장소입니다.
- ETL jobs – 일정에 따라 실행하거나 이벤트에 의해 트리거됩니다.
Glue는 데이터 파이프라인을 구축하는 데 뛰어나지만, 파이프라인을 흐르는 데이터가 일관되지 않거나 누락되었거나 잘못된 경우는 어떨까요? 바로 AWS Glue Data Quality가 필요한 순간입니다.
데이터 품질이 중요한 이유
일관성 없거나 품질이 낮은 데이터는 신뢰할 수 없는 인사이트를 초래합니다.
예시: 중복 주문이나 고객 상세 정보가 누락된 전자상거래 사이트는 매출이 과대 보고되거나 고객 프로필이 불완전하게 나타날 수 있습니다.
전통적인 검증 방법은 종종 맞춤 스크립트, 지속적인 유지보수, ETL 작업과 별도의 실행을 필요로 하며 시간과 비용이 많이 드는 작업입니다.
AWS Glue Data Quality는 검증을 더 빠르고 자동화합니다. Glue 작업 내부에 데이터 품질 규칙을 직접 정의할 수 있어 별도의 검증 파이프라인이 필요 없습니다.
AWS Glue 데이터 품질 이해
실제 작동 방식
AWS Glue Data Quality는 Amazon이 만든 오픈 소스 데이터 품질 프레임워크 DeeQu를 기반으로 합니다. 세 가지 주요 구성 요소를 제공합니다:
| 구성 요소 | 설명 |
|---|---|
| Rule | 정의하는 단일 데이터 품질 검사. |
| Ruleset | 검증을 위해 그룹화된 관련 규칙들의 모음. |
| Tags / Parameters | 비용을 추적하고 규칙 집합을 조직하기 위해 첨부할 수 있는 메타데이터. |
일반적인 기능:
- 검증용 Ruleset – 데이터가 만족해야 하는 조건을 정의합니다.
- 성능 모니터링 – 품질 검사의 수행 상황을 시간에 따라 추적합니다.
- AWS Cost Explorer에서 비용 추적 – 데이터 품질 검사에 얼마나 비용이 들었는지 정확히 확인합니다.
기술적 기반
DeeQu는 오픈 소스이므로 독점 도구에 얽매이지 않습니다. AWS Glue를 떠나더라도 오픈 표준을 기반으로 하기 때문에 데이터 품질 규칙을 재사용할 수 있습니다.
Source: …
세션의 주요 인사이트
런타임 및 비용
- 런타임은 규칙 수가 늘어날수록(검사 수가 많아질수록) 증가합니다 → 실행 시간이 길어집니다.
- 비용은 사용한 컴퓨팅 리소스(DPU)를 기준으로 하며 일반적으로 $0.18 – $0.54 정도로 낮게 유지됩니다.
- 많은 검사를 수행하더라도 Glue 작업의 비용은 보통 1달러 이하이며, 맞춤형 검증 시스템을 구축·유지하는 것보다 훨씬 저렴합니다.
추적 및 최적화
- 규칙 집합에 태깅(예:
team:marketing,project:customer-analytics)을 하면 AWS Cost Explorer에서 비용을 할당하고 팀 또는 프로젝트별 예산을 관리할 수 있습니다. - 검증 시간은 며칠에서 몇 시간으로 단축될 수 있습니다. Glue Data Quality는 별도의 후처리 단계가 아니라 처리 중 메모리 내에서 검사를 실행할 수 있기 때문입니다.
규칙 집합 카테고리 설명
| Category | Description | Example |
|---|---|---|
| Individual Rules | 단일 데이터‑품질 검사. | • email 열에 null 값이 없도록 보장한다.• order_amount가 항상 양수인지 확인한다.• created_date가 미래 날짜가 아닌지 확인한다. |
| Rulesets | 관련 규칙들의 논리적 그룹화. | 모든 customer‑profile 검사를 하나의 규칙 집합으로 묶고, 모든 order‑transaction 검사를 다른 규칙 집합으로 묶어 관리와 보고를 용이하게 한다. |
주요 내용
- AWS Glue Data Quality는 데이터 검증 워크플로를 간소화하고 가속화합니다.
- 비용 효율적: 실행당 낮은 비용과 태그를 통한 세밀한 비용 추적이 가능합니다.
- 확장성: 서버리스 Glue 작업과 원활히 연동되어 대용량 데이터를 처리해도 성능 저하가 없습니다.
- 오픈소스 기반(DeeQu)으로 포터블하고 미래에도 안정적으로 사용할 수 있습니다.
AWS에서 데이터 파이프라인을 구축하거나 유지 관리하고 있다면 Glue Data Quality를 한 번 사용해 보세요. 신뢰할 수 없는 데이터를 신뢰할 수 있는 자산으로 바꾸는 놓칠 수 없는 핵심 요소가 될 수 있습니다.
규칙 집합 정리
- Customer Data – 고객 정보에 대한 규칙.
- Order Validation – 주문 상세에 대한 규칙.
- Financial Compliance – 금융 규정을 준수하기 위한 규칙.
태그 및 파라미터
태그(또는 파라미터)를 사용하면 규칙 집합에 추가 정보를 추가할 수 있습니다. 이는 다음과 같은 경우에 도움이 됩니다:
- 팀, 부서 또는 프로젝트별로 규칙 집합을 조직화하기.
- 세부 수준에서 비용을 추적하기.
- 거버넌스 정책을 구현하기.
요약하면, 이 3단계 구조를 통해 회사에 가장 적합한 방식으로 데이터 품질 검사를 조직할 수 있습니다.
구현을 위한 모범 사례
1. 간단하게 시작하고 점차 확장하기
먼저 쉬운 규칙부터 적용하고 필요에 따라 추가합니다. 시작할 때 확인할 간단한 항목:
- 데이터가 있어야 할 곳에 누락된 값이 있나요?
- 데이터 유형이 올바른가요?
- 모든 필수 필드가 존재하나요?
이 기본 검사가 잘 작동하면 다음과 같은 더 복잡한 규칙을 추가할 수 있습니다:
- 서로 다른 데이터셋 간에 데이터가 올바르게 연결되는지 확인하기.
- 다양한 소스의 데이터를 비교하기.
2. 비용 모니터링을 위해 태그 사용하기
규칙 집합에 처음부터 태그를 지정해 두면 시스템이 성장함에 따라 얼마나 비용이 발생하는지 확인할 수 있습니다. 누군가 “마케팅 데이터베이스의 데이터 품질에 얼마나 비용을 쓰고 있나요?”라고 물었을 때 이 태그가 큰 도움이 될 것입니다.
3. 캐싱 활성화하기
캐싱을 켜면 처리 속도가 빨라집니다. AWS Glue Data Quality에는 캐싱 기능이 있어 동일한 데이터에 대해 여러 검사를 실행할 경우 매번 데이터를 다시 읽지 않아도 됩니다. 이는 처리 시간을 단축하고 비용을 절감합니다.
4. 적극적으로 모니터링하기
알림과 대시보드를 연결해 상황을 지속적으로 확인합니다. AWS Glue Data Quality는 Amazon EventBridge를 통해 데이터 품질 문제가 발생했을 때 알림을 보낼 수 있습니다. 팀에 즉시 알림이 전달되도록 설정하고, Amazon CloudWatch(또는 다른 도구)에서 데이터 품질 추세를 시간에 따라 추적할 수 있는 대시보드를 만들세요.
5. 핵심 장점
발표자는 AWS Glue Data Quality가 확장 가능하고, 신뢰할 수 있으며, 비용 효율적인 검증 솔루션이라고 강조했습니다. 단순히 데이터 품질 검사를 갖추는 것이 아니라 파이프라인의 일부로 자동 실행되어 비용이 증가하거나 지속적인 수동 관리가 필요하지 않다는 점이 중요합니다.
AWS Glue Data Quality는 규칙 생성을 자동화하여 많은 수작업을 없애줍니다. 내장된 머신러닝 기능을 활용해 데이터 기반으로 자동으로 규칙을 제안받을 수도 있습니다. 요컨대, 검증 코드를 작성하는 데 드는 시간을 줄이고 데이터를 활용하는 데 더 많은 시간을 투자할 수 있습니다.
실제 시나리오
시나리오 1: 전자상거래 주문 파이프라인
여러 소스(웹사이트, 모바일 앱, 제3자 마켓플레이스)에서 주문 데이터를 수집한다고 가정해 보세요. 규칙 집합은 다음을 확인할 수 있습니다:
- 주문 ID가 고유한지 여부.
- 고객 이메일이 유효한 형식인지 여부.
- 주문 총액이 라인 아이템 합계와 일치하는지 여부.
- 결제 상태가 허용된 값 중 하나인지 여부.
이러한 검사 중 어느 하나라도 실패하면 파이프라인을 구성하여 잘못된 레코드를 분리하고, 팀에 알림을 보내며, 정상 레코드는 하위 단계로 계속 진행하도록 할 수 있습니다.
시나리오 2: 의료 데이터 준수
의료 기관에 있어 데이터 품질은 법적 요구 사항입니다. AWS Glue Data Quality는 다음을 검증할 수 있습니다:
- 환자 식별자가 존재하고 올바른 형식인지 여부.
- 생년월일이 유효한 범위 내에 있는지 여부.
- 규제 보고에 필요한 모든 필수 필드가 채워졌는지 여부.
- 민감한 데이터가 적절히 암호화되었는지 여부.
시스템은 자동으로 준수 보고서를 생성하여 어떤 레코드가 통과했으며 어떤 레코드가 검토가 필요한지 보여줍니다.
결론
AWS Glue Data Quality는 지저분하고 신뢰할 수 없는 데이터를 팀이 보고 및 의사결정에 자신 있게 사용할 수 있는 신뢰할 수 있는 정보로 변환합니다. 파이프라인 초기에 데이터 품질 검사를 삽입함으로써 더 빠른 결과를 얻고 비용을 절감하며 대시보드나 보고서를 공유할 때 발생하는 문제를 크게 줄일 수 있습니다.
AWS에서 데이터 시스템을 구축하는 모든 사람에게, 몇 가지 간단한 규칙으로 시작하고 점차 데이터 품질 계획을 확장하는 것은 작업을 매일 더 신뢰할 수 있고 믿음직하게 만드는 현명한 방법입니다.
저자 소개
AWS 커뮤니티 빌더로서, 저는 직접 경험하고 이벤트를 통해 배운 것들을 공유하는 것을 즐기며, 다른 사람들이 자신의 길을 찾도록 돕는 것을 좋아합니다. 이 내용이 도움이 되었거나 궁금한 점이 있으면 언제든지 연락 주세요! 🚀
- 🔗 LinkedIn에서 저와 연결하세요
참고 문헌
이벤트: AWS User Group Chennai Meetup
주제: AWS Glue Data Quality를 활용한 신뢰할 수 있는 데이터
날짜: 2025년 9월 27일
Source: …