데이터 레이크에서 PII 보호: AWS Lake Formation 액세스 제어
Source: Dev.to
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
Source: …
AWS Community Day Bengaluru 2025 – “PII Data Management with Lake Formation”
Presentation by Ankit Sheth
Date: May 23 2025
데이터 레이크란? (왜 중요한가?)
데이터 레이크는 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터를 규모에 관계없이 저장할 수 있는 크고 유연한 저장소입니다. 일반적인 내용은 다음과 같습니다.
- 고객 레코드
- 애플리케이션 로그
- 이미지, 비디오, 센서 데이터
전통적인 데이터베이스는 사전에 정의된 스키마가 필요하지만, 데이터 레이크는 읽을 때 스키마 적용(schema‑on‑read) 방식을 사용합니다. 즉, 원시 데이터를 먼저 수집하고, 쿼리를 실행할 때 구조를 정의합니다. 이 때문에 데이터 레이크는 유연하면서도 비용 효율적입니다.
데이터 레이크의 주요 특징
- 단일 진실 소스 – 모든 데이터가 한 곳에 있어 탐색 및 거버넌스가 간편합니다.
- 다양한 포맷 지원 – CSV, JSON, Parquet, Avro, 일반 파일 등.
- 빠른 수집 및 활용 – 데이터를 빠르게 적재하고 여러 분석 도구에서 접근할 수 있습니다.
- 저비용 스토리지 – AWS 데이터 레이크는 주로 Amazon S3를 사용하며, 전통적인 데이터베이스보다 훨씬 저렴합니다.
- 스토리지와 컴퓨트 분리 – 쿼리를 실행할 때만 컴퓨트 비용을 지불하고, 스토리지 비용은 일정하게 유지됩니다.
- 내장된 보호 및 보안 – Lake Formation과 같은 서비스로 세밀한 접근 정책을 정의하고 사용을 감사할 수 있습니다.
데이터가 여러 사일로에 흩어져 있던 경험이 있다면, 이러한 장점이 친숙하게 느껴질 것입니다.
접근 레이어가 중요한 이유
세션에서는 Lake Formation의 Access Layer에 초점을 맞추었으며, 이는 역할 기반 접근 제어(RBAC) 를 구현합니다. SSN, 신용카드 번호, 의료 기록 등 민감한 데이터를 다룰 때 누가 무엇을 볼 수 있는지 정확히 제어해야 합니다.
기존 방식의 문제점
예시: 전자상거래 플랫폼
| 팀 | 데이터 필요성 |
|---|---|
| 마케팅 | 고객 인구통계 |
| 재무 | 거래 기록 |
| 데이터 사이언스 | 추천 모델을 위한 원시 클릭스트림 |
| 분석 | 전사 보고서 |
각 팀은 서로 다른 수준의 접근 권한이 필요합니다. 일부는 전체 데이터를 보아야 하고, 일부는 익명화된 데이터만 필요하며, 몇몇은 절대로 PII를 볼 수 없어야 합니다. 이러한 권한을 수동으로 관리하면 혼란이 발생합니다.
Lake Formation이 해결하는 방법: 역할 기반 접근

Lake Formation은 데이터 레이크 전체에 적용되는 권한을 중앙에서 정의할 수 있게 해줍니다. 세션에서 보여진 슬라이드는 이 워크플로우를 명확히 설명합니다.
권한 흐름
- 관리자가 권한 설정 – 데이터베이스, 테이블, 컬럼, 행, 심지어 셀 수준까지 권한을 부여하고 리소스를 Lake Formation에 등록합니다.
- 사용자가 데이터 조회 – 사용자는 (예: Amazon Athena를 통해) 임시 자격 증명을 사용해 쿼리를 보냅니다.
- Lake Formation이 메타데이터 확인 – AWS Glue Data Catalog에서 테이블 정의를 조회합니다.
- 권한 검증 – Lake Formation은 사용자의 역할이 요청된 데이터에 접근할 수 있는지 확인합니다.
- 자격 증명 발급 – 인가된 경우 임시 S3 자격 증명이 발급됩니다.
- 데이터 반환 – 사용자는 이제 버킷에서 데이터를 읽을 수 있습니다.
두 단계 보호
Lake Formation은 두 곳에서 권한을 적용합니다.
- 메타데이터 레이어 – AWS Glue Data Catalog를 통해 제어합니다.
- 스토리지 레이어 – Amazon S3 접근을 위한 임시 자격 증명 발급을 통해 제어합니다.
이중 보호 방식을 통해 하나의 레이어가 우회되더라도 다른 레이어가 여전히 무단 접근을 차단합니다.
데이터베이스 수준 vs. 테이블 수준 권한

- 데이터베이스 수준 – 전체 데이터베이스에 대한 권한을 부여합니다.
- 테이블 수준 – 개별 테이블에 대한 세부 권한을 부여합니다.
(이후 내용은 파트 2에 이어집니다)
Source: …
데이터베이스 내 모든 테이블에 대한 접근 권한.
- Table‑level – 특정 테이블, 컬럼 또는 행에 대한 접근을 허용하여 세밀한 제어를 가능하게 합니다.
Takeaways
- Lake Formation은 통합된 세분화된 권한 모델을 제공함으로써 PII 및 기타 민감한 데이터 관리를 간소화합니다.
- 역할 기반 접근을 통해 팀 및 사용 사례 전반에 최소 권한 원칙을 적용할 수 있습니다.
- 두 계층 보안(메타데이터 + 스토리지)은 우발적이거나 악의적인 데이터 노출에 대비한 견고한 안전망을 제공합니다.
AWS에서 데이터 레이크를 구축하거나 현대화하고 있다면, Lake Formation의 접근 계층을 도입하는 것은 간과해서는 안 될 모범 사례입니다.

데이터베이스 수준 권한
다음과 같이 전체 데이터베이스에 적용되는 광범위한 권한을 부여할 수 있습니다:
- SELECT – 모든 테이블에서 데이터 읽기
- INSERT – 새 레코드 추가
- DELETE – 레코드 삭제
- ALTER – 테이블 구조 수정
- SUPER – 다른 사람에게 권한을 부여할 수 있는 기능을 포함한 전체 관리 권한
테이블 수준 열 기반 접근 제어
Lake Formation이 여기서 정말 빛을 발합니다. 특정 테이블의 특정 열에 대한 접근을 설정할 수 있습니다. 예를 들어:
- 마케팅 팀은
customer_name과email은 볼 수 있지만credit_card_number는 볼 수 없습니다. - 컴플라이언스 팀은 모든 데이터를 볼 수 있습니다.
- 외부 계약자는 익명화된 집계 데이터만 볼 수 있습니다.
이와 같은 세밀한 제어는 개인 정보를 다룰 때 매우 중요합니다. 열이 숨겨진 동일한 데이터를 여러 사본으로 만들 필요 없이(이는 복잡하고 비용이 많이 듭니다), 접근 규칙을 한 번 정의하면 Lake Formation이 자동으로 적용합니다.
Note: S3 버킷 정책으로 이를 구현하려고 시도할 수 있지만 금방 관리가 어려워집니다. 새 사용자, 역할 또는 데이터세트를 추가할 때마다 여러 위치에서 정책을 수동으로 업데이트해야 합니다. Lake Formation은 모든 것을 한 곳에서 중앙 집중화합니다.
실제 시나리오에서의 활용
시나리오 1: 의료 데이터
병원이 데이터 레이크에 환자 정보를 저장합니다.
- 의사는 의료 기록 전체에 접근할 수 있어야 합니다.
- 청구 담당 직원은 보험 및 결제 정보만 볼 수 있어야 합니다.
- 연구원은 건강 추세를 분석하기 위해 익명화된 데이터만 사용할 수 있으며, 개인 식별 정보는 볼 수 없어야 합니다.
Lake Formation을 사용하면 이러한 규칙을 한 번 설정하면 됩니다. 사용자가 Athena, Redshift Spectrum 또는 기타 연결된 도구를 통해 데이터를 액세스하든 시스템이 자동으로 규칙을 적용합니다.
시나리오 2: 전자상거래 플랫폼
온라인 쇼핑몰이 구매 습관을 분석하고자 합니다.
- 마케팅 팀은 고객 인구통계와 구매 유형을 볼 수 있지만, 정확한 가격은 (재무 팀 전용) 볼 수 없습니다.
- 데이터 과학자는 머신러닝 모델을 구축하기 위해 거래 패턴이 필요하지만, 고객 이름은 볼 필요가 없습니다.
Lake Formation을 통해 이러한 비즈니스 요구에 정확히 맞는 역할 기반 정책을 만들 수 있습니다.
시나리오 3: 규제 준수
EU에 기반을 둔 경우, GDPR은 개인 데이터에 대한 엄격한 통제를 요구합니다.
Lake Formation은 누가 언제 어떤 데이터에 접근했는지를 추적하는 감사 준비 로그를 제공하여, 감사 시 규정 준수 검사를 간소화합니다.
## 저자 소개
AWS Community Builder로서, 저는 제 경험과 이벤트를 통해 배운 것을 공유하는 것을 즐기며, 다른 사람들이 길을 찾는 데 도움을 주는 것을 좋아합니다. 이 내용이 도움이 되었거나 질문이 있으면 언제든지 연락 주세요! 🚀
🔗 **LinkedIn에서 저와 연결하기**
## References
- **Event:** AWS Community Day Bangalore 2025
- **Topic:** *Securing PII in Data Lakes: AWS Lake Formation Access Control*
- **Date:** 2025년 5월 23일
- **Location:** [Conrad Bengaluru](https://www.hilton.com/en/hotels/blrkrci-conrad-bengaluru/hotel-location/?WT.mc_id=zPADA0IN1CH2PSH3paid_ggl4DOMBPP_Apr5SiteGGL_ObjROAS_TacBPP_TarKeyword_SMIN_FrmtRSAs_CrNText_DvceAll_LPOHW6BLRKRCI7EN8acctid=9094736915-campid=16903767109-adgrpid=135963230375)
## 또한 게시됨
- [AWS Builder Center](https://builder.aws.com/content/37FRSfJBVN28NpXDcfhgijdg2GG/securing-pii-in-data-lakes-aws-lake-formation-access-control)
- [Hashnode](https://devopstour.hashnode.dev/securing-pii-in-data-lakes-aws-lake-formation-access-control)