[Paper] Data Lakehouse 아키텍처에서 데이터 로딩 및 저장 효율성에 관한 연구: 분석 데이터 시스템 구축을 위한

발행: 1일 전 (2026년 4월 23일 PM 06:07 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2604.21449v1

Overview

Ivan Borodii와 Halyna Osukhivska가 수행한 최신 연구에서는 Apache Spark를 처리 엔진으로 사용하여 Apache Hudi, Apache Iceberg, Delta Lake라는 세 가지 주요 Data Lakehouse 기술을 벤치마크했습니다. 구조화된(CSV) 데이터와 반구조화된(JSON) 데이터셋을 최대 7 GB까지 로드하면서, 저자들은 분석 워크로드에 대해 로드 속도와 스토리지 사용량 사이의 최적의 균형을 제공하는 아키텍처가 무엇인지 파악했습니다.

주요 기여

Hudi, Iceberg, Delta Lake를 동일한 Spark ETL 파이프라인에서 처음으로 나란히 성능 비교.
두 가지 핵심 지표 평가: (1) 데이터 로드 시간, (2) 결과 테이블의 디스크 상 크기.
데이터 유형, 규모, 우선순위(속도 vs. 저장 효율성)에 따라 어떤 레이크하우스를 선택할지에 대한 통찰력 있는 가이드.
추가 벤치마킹에 재사용 가능한 오픈소스 준비된 실험 프레임워크(네 개의 순차 ETL 작업).

방법론

Data Sets – 두 가지 형식이 사용되었습니다:
- CSV (완전 구조화)
- JSON (반구조화)
  파일 크기는 몇 백 메가바이트에서 7 GB까지 다양했으며, 현실적인 배치 로드를 시뮬레이션했습니다.
Processing Engine – 모든 작업은 Apache Spark(동일한 Spark 버전, 클러스터 규모 및 구성)에서 실행되어 컴퓨팅 레이어를 일정하게 유지했습니다.
ETL Workflow – 각 lakehouse 시스템에 대해 저자들은 네 단계의 순차적 작업을 수행했습니다:
- Read 소스 파일을 Spark DataFrame으로 읽기.
- Transform (간단한 타입 캐스팅, 컬럼 이름 변경).
- Write 시스템별 쓰기 API를 사용해 데이터를 lakehouse 테이블에 기록.
- Commit 트랜잭션 커밋(해당되는 경우).
Metrics Captured –
- Loading Time: Spark 읽기부터 성공적인 커밋까지의 실제 경과 시간.
- Disk Footprint: 압축/최적화 후(시스템이 자동으로 수행한 경우) 테이블 디렉터리의 전체 크기.
Repetition & Averaging – 각 실험은 여러 번 반복했으며, 결과는 일시적인 클러스터 노이즈를 완화하기 위해 평균값을 사용했습니다.

Results & Findings

Lakehouse	로드 속도에 가장 적합	스토리지 효율성에 가장 적합	관찰 사항
Delta Lake	가장 빠름 모든 파일 크기와 CSV/JSON 모두에서. 7 GB 파일에서도 일관되게 낮은 로드 시간.	보통 – Iceberg보다 디스크 상 크기가 크지만 여전히 허용 가능.	최적화된 쓰기 경로와 효율적인 트랜잭션 로그 처리 덕분에 순수 처리량 시나리오에서 우위를 점함.
Apache Iceberg	Delta Lake보다 약간 느리지만 여전히 경쟁력 있음.	가장 컴팩트한 스토리지; 내장 파일 프루닝 및 메타데이터 관리의 이점.	디스크 비용이나 장기 보관이 원시 적재 속도보다 중요할 때 이상적.
Apache Hudi	가장 느림 배치 로드 테스트에서; CSV와 JSON 모두에서 높은 지연 시간.	Iceberg에 비해 디스크 상 차지 공간이 더 큼.	대량 배치 로드에는 적합하지 않으며, 증분 업서트 및 스트리밍 사용 사례에서 강점 (본 연구 범위 외).

데이터 유형 영향: JSON(반구조화)은 모든 시스템에서 약간의 오버헤드를 발생시켰지만, 상대 순위는 변함없음.
규모 영향: 파일 크기가 커짐에 따라 Delta Lake와 다른 시스템 간 성능 격차가 확대되어, 대용량 적재에 대한 Delta의 확장성을 확인함.

실용적인 시사점

데이터 엔지니어는 Delta Lake를 채택하여 빠르고 반복 가능한 배치 로드를 우선시하는 파이프라인을 구축할 때 (예: 야간 데이터 웨어하우스, ETL 리프레시) 사용할 수 있습니다.
아키텍트가 비용에 민감한 분석 플랫폼을 설계할 때 (예: 다중 테넌트 레이크하우스, 장기 데이터 레이크) Apache Iceberg를 선호하여 저장소 절감을 이루면서도 합리적인 적재 속도를 유지할 수 있습니다.
스트리밍 / CDC 워크로드: 이 배치 중심 벤치마크에서 Hudi가 뒤처졌지만, 그 업서트 중심 설계는 실시간 변경 데이터 캡처 파이프라인, 이벤트 기반 분석, 혹은 IoT 스트림에 강력한 후보가 됩니다.
이 연구의 Spark 중심 벤치마크 스위트는 클러스터 업그레이드나 구성 조정 후 성능을 지속적으로 검증하기 위해 CI 파이프라인에 쉽게 삽입할 수 있습니다.

제한 사항 및 향후 연구

배치 ETL에만 국한된 범위 – Hudi가 일반적으로 뛰어난 증분, 스트리밍, merge‑on‑read 시나리오는 평가되지 않음.
실험은 단일 Spark 클러스터 구성에서 수행됨; 하드웨어, 클라우드 제공업체, Spark 튜닝 파라미터가 다르면 결과가 달라질 수 있음.
CSV 및 JSON 형식만 테스트함; 다른 일반적인 소스(Parquet, Avro, ORC)는 압축 및 레이아웃 동작에 영향을 줄 수 있음.
향후 연구에서는 동시 쿼리 워크로드, 메타데이터 확장성, 그리고 클라우드 스토리지 계층별 비용 모델링으로 벤치마크를 확장할 수 있음.

저자

Ivan Borodii
Halyna Osukhivska

논문 정보

arXiv ID: 2604.21449v1
분류: cs.DC, cs.DB
출판일: 2026년 4월 23일
PDF: PDF 다운로드

[Paper] Data Lakehouse 아키텍처에서 데이터 로딩 및 저장 효율성에 관한 연구: 분석 데이터 시스템 구축을 위한

Overview

주요 기여

방법론

Results & Findings

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SIMD를 활용한 대형 정수 연산 가속

[Paper] 블록체인 연구 주제 및 디자인 패턴 체계화: University Blockchain Research Initiative (UBRI) 인사이트

[Paper] 위험 인식 및 안정적인 Edge Server 선택, 네트워크 지연 SLO 하에서

[Paper] 스케일에서 재현 가능한 딥러닝을 위한 High-Throughput Distributed Data Pipelines 최적화