[Paper] Data Lakehouse 아키텍처에서 데이터 로딩 및 저장 효율성에 관한 연구: 분석 데이터 시스템 구축을 위한

발행: (2026년 4월 23일 PM 06:07 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.21449v1

Overview

Ivan Borodii와 Halyna Osukhivska가 수행한 최신 연구에서는 Apache Spark를 처리 엔진으로 사용하여 Apache Hudi, Apache Iceberg, Delta Lake라는 세 가지 주요 Data Lakehouse 기술을 벤치마크했습니다. 구조화된(CSV) 데이터와 반구조화된(JSON) 데이터셋을 최대 7 GB까지 로드하면서, 저자들은 분석 워크로드에 대해 로드 속도스토리지 사용량 사이의 최적의 균형을 제공하는 아키텍처가 무엇인지 파악했습니다.

주요 기여

  • Hudi, Iceberg, Delta Lake를 동일한 Spark ETL 파이프라인에서 처음으로 나란히 성능 비교.
  • 두 가지 핵심 지표 평가: (1) 데이터 로드 시간, (2) 결과 테이블의 디스크 상 크기.
  • 데이터 유형, 규모, 우선순위(속도 vs. 저장 효율성)에 따라 어떤 레이크하우스를 선택할지에 대한 통찰력 있는 가이드.
  • 추가 벤치마킹에 재사용 가능한 오픈소스 준비된 실험 프레임워크(네 개의 순차 ETL 작업).

방법론

  1. Data Sets – 두 가지 형식이 사용되었습니다:

    • CSV (완전 구조화)
    • JSON (반구조화)
      파일 크기는 몇 백 메가바이트에서 7 GB까지 다양했으며, 현실적인 배치 로드를 시뮬레이션했습니다.
  2. Processing Engine – 모든 작업은 Apache Spark(동일한 Spark 버전, 클러스터 규모 및 구성)에서 실행되어 컴퓨팅 레이어를 일정하게 유지했습니다.

  3. ETL Workflow – 각 lakehouse 시스템에 대해 저자들은 네 단계의 순차적 작업을 수행했습니다:

    • Read 소스 파일을 Spark DataFrame으로 읽기.
    • Transform (간단한 타입 캐스팅, 컬럼 이름 변경).
    • Write 시스템별 쓰기 API를 사용해 데이터를 lakehouse 테이블에 기록.
    • Commit 트랜잭션 커밋(해당되는 경우).
  4. Metrics Captured

    • Loading Time: Spark 읽기부터 성공적인 커밋까지의 실제 경과 시간.
    • Disk Footprint: 압축/최적화 후(시스템이 자동으로 수행한 경우) 테이블 디렉터리의 전체 크기.
  5. Repetition & Averaging – 각 실험은 여러 번 반복했으며, 결과는 일시적인 클러스터 노이즈를 완화하기 위해 평균값을 사용했습니다.

Results & Findings

Lakehouse로드 속도에 가장 적합스토리지 효율성에 가장 적합관찰 사항
Delta Lake가장 빠름 모든 파일 크기와 CSV/JSON 모두에서. 7 GB 파일에서도 일관되게 낮은 로드 시간.보통 – Iceberg보다 디스크 상 크기가 크지만 여전히 허용 가능.최적화된 쓰기 경로와 효율적인 트랜잭션 로그 처리 덕분에 순수 처리량 시나리오에서 우위를 점함.
Apache IcebergDelta Lake보다 약간 느리지만 여전히 경쟁력 있음.가장 컴팩트한 스토리지; 내장 파일 프루닝 및 메타데이터 관리의 이점.디스크 비용이나 장기 보관이 원시 적재 속도보다 중요할 때 이상적.
Apache Hudi가장 느림 배치 로드 테스트에서; CSV와 JSON 모두에서 높은 지연 시간.Iceberg에 비해 디스크 상 차지 공간이 더 큼.대량 배치 로드에는 적합하지 않으며, 증분 업서트스트리밍 사용 사례에서 강점 (본 연구 범위 외).
  • 데이터 유형 영향: JSON(반구조화)은 모든 시스템에서 약간의 오버헤드를 발생시켰지만, 상대 순위는 변함없음.
  • 규모 영향: 파일 크기가 커짐에 따라 Delta Lake와 다른 시스템 간 성능 격차가 확대되어, 대용량 적재에 대한 Delta의 확장성을 확인함.

실용적인 시사점

  • 데이터 엔지니어Delta Lake를 채택하여 빠르고 반복 가능한 배치 로드를 우선시하는 파이프라인을 구축할 때 (예: 야간 데이터 웨어하우스, ETL 리프레시) 사용할 수 있습니다.
  • 아키텍트비용에 민감한 분석 플랫폼을 설계할 때 (예: 다중 테넌트 레이크하우스, 장기 데이터 레이크) Apache Iceberg를 선호하여 저장소 절감을 이루면서도 합리적인 적재 속도를 유지할 수 있습니다.
  • 스트리밍 / CDC 워크로드: 이 배치 중심 벤치마크에서 Hudi가 뒤처졌지만, 그 업서트 중심 설계실시간 변경 데이터 캡처 파이프라인, 이벤트 기반 분석, 혹은 IoT 스트림에 강력한 후보가 됩니다.
  • 이 연구의 Spark 중심 벤치마크 스위트는 클러스터 업그레이드나 구성 조정 후 성능을 지속적으로 검증하기 위해 CI 파이프라인에 쉽게 삽입할 수 있습니다.

제한 사항 및 향후 연구

  • 배치 ETL에만 국한된 범위 – Hudi가 일반적으로 뛰어난 증분, 스트리밍, merge‑on‑read 시나리오는 평가되지 않음.
  • 실험은 단일 Spark 클러스터 구성에서 수행됨; 하드웨어, 클라우드 제공업체, Spark 튜닝 파라미터가 다르면 결과가 달라질 수 있음.
  • CSV 및 JSON 형식만 테스트함; 다른 일반적인 소스(Parquet, Avro, ORC)는 압축 및 레이아웃 동작에 영향을 줄 수 있음.
  • 향후 연구에서는 동시 쿼리 워크로드, 메타데이터 확장성, 그리고 클라우드 스토리지 계층별 비용 모델링으로 벤치마크를 확장할 수 있음.

저자

  • Ivan Borodii
  • Halyna Osukhivska

논문 정보

  • arXiv ID: 2604.21449v1
  • 분류: cs.DC, cs.DB
  • 출판일: 2026년 4월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »