Amazon S3 테이블이 더 똑똑해졌습니다: Intelligent‑Tiering 및 Native Replication 설명
I’m happy to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line and all formatting exactly as you specify.
소개
분석 데이터셋이 커짐에 따라 조직은 두 가지 지속적인 과제에 직면합니다:
- 스토리지 비용 증가 – 과거 테이블 데이터는 덜 자주 접근됩니다.
- 운영 복잡성 – 여러 리전이나 AWS 계정에 걸쳐 일관된 Apache Iceberg 테이블을 유지 관리해야 합니다.
Amazon은 최근 Intelligent‑Tiering 및 native replication을 Amazon S3 Tables에 도입하여 이 두 문제를 해결했습니다. 이러한 개선 사항은 애플리케이션 변경이나 맞춤형 동기화 파이프라인 없이도 비용 최적화와 글로벌 데이터 접근을 크게 단순화합니다.
Amazon S3 Tables는 Amazon S3 내에서 Apache Iceberg 테이블을 위한 관리형 스토리지 추상화를 제공합니다. 테이블은 다음으로 구성됩니다:
- Parquet 데이터 파일
- Iceberg 메타데이터 파일 (스냅샷, 매니페스트, 스키마 진화)
S3 Tables는 대규모 Iceberg 메타데이터 관리와 관련된 많은 운영 부담을 제거하면서도 Spark, Trino, DuckDB, PyIceberg와 같은 Iceberg‑지원 쿼리 엔진과 호환됩니다.
Intelligent‑Tiering 및 복제 지원이 도입되기 전, 팀은 다음과 같은 문제에 어려움을 겪었습니다:
- 스토리지 비용 관리를 위한 수동 라이프사이클 규칙
- 리전 간 또는 계정 간 사용 사례를 위한 맞춤형 복제 파이프라인
- 스냅샷 순서와 메타데이터 일관성을 유지하기 위한 복잡한 로직
Source: …
Feature #1: S3 테이블용 Intelligent‑Tiering
무엇인가
Intelligent‑Tiering for S3 Tables는 관찰된 접근 패턴에 따라 테이블 데이터를 접근 계층 간에 자동으로 이동시켜 저장 비용을 최적화합니다—성능에 영향을 주지 않으며 애플리케이션 변경도 필요하지 않습니다.
S3 테이블은 세 가지 저지연 접근 계층을 지원합니다:
| Tier | Description | Cost Reduction vs. Frequent Access |
|---|---|---|
| Frequent Access (default) | 핫 데이터, 즉시 접근 가능 | – |
| Infrequent Access | 워밍 데이터, 덜 자주 접근 | 약 40 % 절감 |
| Archive Instant Access | 콜드 데이터, 거의 접근되지 않음 | Infrequent Access 대비 약 68 % 절감 |
객체는 자동으로 전환됩니다:
- 접근이 없어진 지 ~30 일 후 → Infrequent Access
- 접근이 없어진 지 ~90 일 후 → Archive Instant Access
AWS estimate: Intelligent‑Tiering은 접근 패턴에 따라 저장 비용을 최대 **80 %**까지 절감할 수 있습니다.
이점
- 애플리케이션이나 쿼리 엔진 변경 불필요
- 분석 워크로드에 대한 성능 영향 없음
- 파일 수준에서 자동 계층화
- 내장된 유지 관리 작업이 계속 작동:
- 압축(Compaction)
- 스냅샷 만료(Snapshot expiration)
- 참조되지 않은 파일 삭제(Removal of unreferenced files)
압축 작업은 주로 Frequent Access 계층의 데이터를 처리하도록 최적화되어 있어, 콜드 데이터의 불필요한 재계층화를 방지합니다.
구성 (AWS CLI)
# Enable Intelligent‑Tiering for a table bucket
aws s3tables put-table-bucket-storage-class \
--table-bucket-arn $TABLE_BUCKET_ARN \
--storage-class-configuration storageClass=INTELLIGENT_TIERING
# Verify the configuration
aws s3tables get-table-bucket-storage-class \
--table-bucket-arn $TABLE_BUCKET_ARN
이 구성은 버킷에 새로 생성되는 모든 테이블에 자동으로 적용됩니다.
Feature #2: S3 테이블에 대한 네이티브 복제
Amazon S3 Tables는 이제 네이티브 복제를 지원하여 Apache Iceberg 테이블을 AWS 리전 및 계정 간에 복제할 수 있습니다. 복제는 읽기 전용 복제 테이블을 생성하며, 원본 테이블과 동기화된 상태를 유지해 Lambda, Step Functions 등으로 구축한 맞춤형 동기화 시스템이 필요하지 않습니다.
복제 작동 방식
- 대상 테이블 버킷을 지정합니다.
- S3 Tables가 읽기 전용 복제 테이블을 생성합니다.
- 기존 데이터가 백필(backfill) 됩니다.
- 지속적인 업데이트가 계속 적용됩니다.
복제는 다음을 보존합니다:
- 스냅샷 계보
- 부모‑자식 관계
- 시간 순서 커밋 순서
복제 테이블은 일반적으로 몇 분 이내에 원본 업데이트를 반영합니다.
이점
- 분산 팀을 위한 글로벌 분석
- 지역 복제본에서 읽어 쿼리 지연 시간 감소
- 규정 준수 및 데이터 거주지 지원
- 재해 복구 및 데이터 보호
- 타임 트래블 쿼리 및 감사
복제 활성화 (AWS CLI)
aws s3tables-replication put-table-replication \
--table-arn ${SOURCE_TABLE_ARN} \
--configuration '{
"role": "arn:aws:iam:::role/S3TableReplicationRole",
"rules": [
{
"destinations": [
{
"destinationTableBucketARN": "${DESTINATION_TABLE_BUCKET_ARN}"
}
]
}
]
}'
# 복제 상태 확인
aws s3tables-replication get-table-replication-status \
--table-arn ${SOURCE_TABLE_ARN}
복제는 AWS 리전 및 계정 간에 작동하며, 쿼리 성능은 원본 테이블과 비슷합니다.
비용 고려 사항
| 비용 구성 요소 | 설명 |
|---|---|
| 스토리지 | 대상 테이블 버킷 스토리지(계층별) |
| PUT 요청 | 복제 PUT 작업 |
| 테이블 업데이트(커밋) 사용량 | 각 커밋에 대한 메타데이터 쓰기 |
| 객체 모니터링 | 복제된 데이터에 대한 모니터링 비용 |
| 리전 간 데이터 전송 | 리전 간 복제에만 해당 |
| 추가 구성 비용 없음 | 위의 리소스에 대해서만 비용이 청구됩니다 |
팁: AWS 비용 및 사용 보고서와 CloudWatch 메트릭을 사용해 스토리지 사용량을 추적하세요.
모니터링
- AWS 비용 및 사용 보고서 – 계층별 스토리지 비용
- Amazon CloudWatch 메트릭 – 테이블 사용량 및 유지 관리 작업
- AWS CloudTrail – 복제 및 구성 이벤트
가용성
Intelligent‑Tiering 및 네이티브 복제는 S3 Tables가 지원되는 모든 AWS 리전에서 사용할 수 있습니다.
시작하기
- Intelligent‑Tiering을 테이블‑버킷 수준에서 활성화하여 일관된 비용 최적화를 수행합니다.
- 계층형 데이터에 대한 정비 작업(압축, 스냅샷 만료)을 테스트합니다.
- 비용과 지연 시간을 파악하기 위해 작은 파일럿 테이블로 복제를 시작합니다.
- 사용 패턴을 모니터링한 후 전체 프로덕션 복제로 확장합니다.
이 기능은 특히 다음에 유용합니다:
- 데이터‑집중 분석 플랫폼
- 분산 팀을 가진 글로벌 조직
- 규정 준수 중심 워크로드
- 혼합 접근 패턴을 가진 대규모 히스토리 데이터셋
이들은 Iceberg 의미론과 쿼리 성능을 유지하면서 운영 오버헤드를 크게 줄여줍니다.
Conclusion
With Intelligent‑Tiering and native replication, Amazon S3 Tables make it easier to build cost‑efficient, globally consistent, and low‑maintenance analytics platforms on top of Apache Iceberg. These enhancements eliminate much of the manual effort traditionally required to manage storage, tiering, and cross‑region data synchronisation.
Posts and cross‑region consistency — allowing teams to focus on analytics instead of infrastructure.
리소스
- AWS News Blog: Amazon S3 테이블에 대한 복제 지원 및 Intelligent‑Tiering 발표
- Amazon S3 Tables documentation → Amazon S3 테이블 문서
- Amazon S3 pricing page → Amazon S3 요금 페이지
- Apache Iceberg documentation → Apache Iceberg 문서
- AWS analytics services: Athena, EMR, Glue, Redshift → AWS 분석 서비스: Athena, EMR, Glue, Redshift