데이터 레이크에서 PII 보호: AWS Lake Formation 액세스 제어

발행: (2025년 12월 23일 오후 10:47 GMT+9)
13 분 소요
원문: Dev.to

Source: Dev.to

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

Source:

AWS Community Day Bengaluru 2025 – “PII Data Management with Lake Formation”

Presentation by Ankit Sheth
Date: May 23 2025

데이터 레이크란? (왜 중요한가?)

데이터 레이크는 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터를 규모에 관계없이 저장할 수 있는 크고 유연한 저장소입니다. 일반적인 내용은 다음과 같습니다.

  • 고객 레코드
  • 애플리케이션 로그
  • 이미지, 비디오, 센서 데이터

전통적인 데이터베이스는 사전에 정의된 스키마가 필요하지만, 데이터 레이크는 읽을 때 스키마 적용(schema‑on‑read) 방식을 사용합니다. 즉, 원시 데이터를 먼저 수집하고, 쿼리를 실행할 때 구조를 정의합니다. 이 때문에 데이터 레이크는 유연하면서도 비용 효율적입니다.

데이터 레이크의 주요 특징

  • 단일 진실 소스 – 모든 데이터가 한 곳에 있어 탐색 및 거버넌스가 간편합니다.
  • 다양한 포맷 지원 – CSV, JSON, Parquet, Avro, 일반 파일 등.
  • 빠른 수집 및 활용 – 데이터를 빠르게 적재하고 여러 분석 도구에서 접근할 수 있습니다.
  • 저비용 스토리지 – AWS 데이터 레이크는 주로 Amazon S3를 사용하며, 전통적인 데이터베이스보다 훨씬 저렴합니다.
  • 스토리지와 컴퓨트 분리 – 쿼리를 실행할 때만 컴퓨트 비용을 지불하고, 스토리지 비용은 일정하게 유지됩니다.
  • 내장된 보호 및 보안 – Lake Formation과 같은 서비스로 세밀한 접근 정책을 정의하고 사용을 감사할 수 있습니다.

데이터가 여러 사일로에 흩어져 있던 경험이 있다면, 이러한 장점이 친숙하게 느껴질 것입니다.

접근 레이어가 중요한 이유

세션에서는 Lake Formation의 Access Layer에 초점을 맞추었으며, 이는 역할 기반 접근 제어(RBAC) 를 구현합니다. SSN, 신용카드 번호, 의료 기록 등 민감한 데이터를 다룰 때 누가 무엇을 볼 수 있는지 정확히 제어해야 합니다.

기존 방식의 문제점

예시: 전자상거래 플랫폼

데이터 필요성
마케팅고객 인구통계
재무거래 기록
데이터 사이언스추천 모델을 위한 원시 클릭스트림
분석전사 보고서

각 팀은 서로 다른 수준의 접근 권한이 필요합니다. 일부는 전체 데이터를 보아야 하고, 일부는 익명화된 데이터만 필요하며, 몇몇은 절대로 PII를 볼 수 없어야 합니다. 이러한 권한을 수동으로 관리하면 혼란이 발생합니다.

Lake Formation이 해결하는 방법: 역할 기반 접근

Lake Formation permission model

Lake Formation은 데이터 레이크 전체에 적용되는 권한을 중앙에서 정의할 수 있게 해줍니다. 세션에서 보여진 슬라이드는 이 워크플로우를 명확히 설명합니다.

권한 흐름

  1. 관리자가 권한 설정 – 데이터베이스, 테이블, 컬럼, 행, 심지어 셀 수준까지 권한을 부여하고 리소스를 Lake Formation에 등록합니다.
  2. 사용자가 데이터 조회 – 사용자는 (예: Amazon Athena를 통해) 임시 자격 증명을 사용해 쿼리를 보냅니다.
  3. Lake Formation이 메타데이터 확인 – AWS Glue Data Catalog에서 테이블 정의를 조회합니다.
  4. 권한 검증 – Lake Formation은 사용자의 역할이 요청된 데이터에 접근할 수 있는지 확인합니다.
  5. 자격 증명 발급 – 인가된 경우 임시 S3 자격 증명이 발급됩니다.
  6. 데이터 반환 – 사용자는 이제 버킷에서 데이터를 읽을 수 있습니다.

두 단계 보호

Lake Formation은 두 곳에서 권한을 적용합니다.

  • 메타데이터 레이어 – AWS Glue Data Catalog를 통해 제어합니다.
  • 스토리지 레이어 – Amazon S3 접근을 위한 임시 자격 증명 발급을 통해 제어합니다.

이중 보호 방식을 통해 하나의 레이어가 우회되더라도 다른 레이어가 여전히 무단 접근을 차단합니다.

데이터베이스 수준 vs. 테이블 수준 권한

Database vs. Table permissions

  • 데이터베이스 수준 – 전체 데이터베이스에 대한 권한을 부여합니다.
  • 테이블 수준 – 개별 테이블에 대한 세부 권한을 부여합니다.

(이후 내용은 파트 2에 이어집니다)

Source:

데이터베이스 내 모든 테이블에 대한 접근 권한.

  • Table‑level – 특정 테이블, 컬럼 또는 행에 대한 접근을 허용하여 세밀한 제어를 가능하게 합니다.

Takeaways

  • Lake Formation은 통합된 세분화된 권한 모델을 제공함으로써 PII 및 기타 민감한 데이터 관리를 간소화합니다.
  • 역할 기반 접근을 통해 팀 및 사용 사례 전반에 최소 권한 원칙을 적용할 수 있습니다.
  • 두 계층 보안(메타데이터 + 스토리지)은 우발적이거나 악의적인 데이터 노출에 대비한 견고한 안전망을 제공합니다.

AWS에서 데이터 레이크를 구축하거나 현대화하고 있다면, Lake Formation의 접근 계층을 도입하는 것은 간과해서는 안 될 모범 사례입니다.

![AWS Lake Formation Overview](https://dev-to-uploads.s3.amazonaws.com/uploads/articles/8i51gmsiv2fg17i8hmle.jpeg)

데이터베이스 수준 권한

다음과 같이 전체 데이터베이스에 적용되는 광범위한 권한을 부여할 수 있습니다:

  • SELECT – 모든 테이블에서 데이터 읽기
  • INSERT – 새 레코드 추가
  • DELETE – 레코드 삭제
  • ALTER – 테이블 구조 수정
  • SUPER – 다른 사람에게 권한을 부여할 수 있는 기능을 포함한 전체 관리 권한

테이블 수준 열 기반 접근 제어

Lake Formation이 여기서 정말 빛을 발합니다. 특정 테이블의 특정 열에 대한 접근을 설정할 수 있습니다. 예를 들어:

  • 마케팅 팀customer_nameemail은 볼 수 있지만 credit_card_number는 볼 수 없습니다.
  • 컴플라이언스 팀은 모든 데이터를 볼 수 있습니다.
  • 외부 계약자는 익명화된 집계 데이터만 볼 수 있습니다.

이와 같은 세밀한 제어는 개인 정보를 다룰 때 매우 중요합니다. 열이 숨겨진 동일한 데이터를 여러 사본으로 만들 필요 없이(이는 복잡하고 비용이 많이 듭니다), 접근 규칙을 한 번 정의하면 Lake Formation이 자동으로 적용합니다.

Note: S3 버킷 정책으로 이를 구현하려고 시도할 수 있지만 금방 관리가 어려워집니다. 새 사용자, 역할 또는 데이터세트를 추가할 때마다 여러 위치에서 정책을 수동으로 업데이트해야 합니다. Lake Formation은 모든 것을 한 곳에서 중앙 집중화합니다.

실제 시나리오에서의 활용

시나리오 1: 의료 데이터

병원이 데이터 레이크에 환자 정보를 저장합니다.

  • 의사는 의료 기록 전체에 접근할 수 있어야 합니다.
  • 청구 담당 직원은 보험 및 결제 정보만 볼 수 있어야 합니다.
  • 연구원은 건강 추세를 분석하기 위해 익명화된 데이터만 사용할 수 있으며, 개인 식별 정보는 볼 수 없어야 합니다.

Lake Formation을 사용하면 이러한 규칙을 한 번 설정하면 됩니다. 사용자가 Athena, Redshift Spectrum 또는 기타 연결된 도구를 통해 데이터를 액세스하든 시스템이 자동으로 규칙을 적용합니다.

시나리오 2: 전자상거래 플랫폼

온라인 쇼핑몰이 구매 습관을 분석하고자 합니다.

  • 마케팅 팀은 고객 인구통계와 구매 유형을 볼 수 있지만, 정확한 가격은 (재무 팀 전용) 볼 수 없습니다.
  • 데이터 과학자는 머신러닝 모델을 구축하기 위해 거래 패턴이 필요하지만, 고객 이름은 볼 필요가 없습니다.

Lake Formation을 통해 이러한 비즈니스 요구에 정확히 맞는 역할 기반 정책을 만들 수 있습니다.

시나리오 3: 규제 준수

EU에 기반을 둔 경우, GDPR은 개인 데이터에 대한 엄격한 통제를 요구합니다.

Lake Formation은 누가 언제 어떤 데이터에 접근했는지를 추적하는 감사 준비 로그를 제공하여, 감사 시 규정 준수 검사를 간소화합니다.


## 저자 소개

AWS Community Builder로서, 저는 제 경험과 이벤트를 통해 배운 것을 공유하는 것을 즐기며, 다른 사람들이 길을 찾는 데 도움을 주는 것을 좋아합니다. 이 내용이 도움이 되었거나 질문이 있으면 언제든지 연락 주세요! 🚀  

🔗 **LinkedIn에서 저와 연결하기**

## References

- **Event:** AWS Community Day Bangalore 2025  
- **Topic:** *Securing PII in Data Lakes: AWS Lake Formation Access Control*  
- **Date:** 2025년 5월 23일  
- **Location:** [Conrad Bengaluru](https://www.hilton.com/en/hotels/blrkrci-conrad-bengaluru/hotel-location/?WT.mc_id=zPADA0IN1CH2PSH3paid_ggl4DOMBPP_Apr5SiteGGL_ObjROAS_TacBPP_TarKeyword_SMIN_FrmtRSAs_CrNText_DvceAll_LPOHW6BLRKRCI7EN8acctid=9094736915-campid=16903767109-adgrpid=135963230375)

## 또한 게시됨

- [AWS Builder Center](https://builder.aws.com/content/37FRSfJBVN28NpXDcfhgijdg2GG/securing-pii-in-data-lakes-aws-lake-formation-access-control)  
- [Hashnode](https://devopstour.hashnode.dev/securing-pii-in-data-lakes-aws-lake-formation-access-control)
Back to Blog

관련 글

더 보기 »