🔥 7일 차: PySpark Joins, Unions, 그리고 GroupBy 가이드

발행: 1개월 전 (2025년 12월 8일 오후 07:46 GMT+9)

2 min read

Source: Dev.to

PySpark에서의 Join — ETL 파이프라인의 핵심

Join은 두 DataFrame을 키를 기준으로 병합하는 것으로, SQL의 JOIN과 유사합니다.

기본 Join

df.join(df2, df.id == df2.id, "inner")

같은 컬럼 이름으로 Join

df.join(df2, ["id"], "left")

Spark에서 지원하는 Join 유형

inner
left / left_outer
right / right_outer
full / full_outer
left_semi – 존재 여부 확인 (오른쪽에 매치가 있는 왼쪽 DataFrame의 행을 반환)
left_anti – 안티‑조인 (오른쪽에 매치가 없는 왼쪽 DataFrame의 행을 반환)

Union — DataFrame을 수직으로 쌓기

동일 스키마, 동일 순서인 경우 Union

df.union(df2)

컬럼 이름으로 Union (순서가 다른 경우)

df.unionByName(df2)

Union은 월별 파일, 일일 수집 데이터셋, 혹은 파티션된 데이터를 결합할 때 사용합니다.

GroupBy + Aggregation — 비즈니스 로직 레이어

예시

df.groupBy("dept").agg(
    sum("salary").alias("total_salary"),
    avg("age").alias("avg_age")
)

`count`와 `countDistinct`

df.select(count("id"))
df.select(countDistinct("id"))

Approximate Distinct Count (빠른 방법)

df.select(approx_count_distinct("id"))

실제 ETL 예시 — 매출 집계

Sales와 Products 조인

df_joined = sales.join(products, "product_id", "left")

카테고리별 매출 집계

df_agg = df_joined.groupBy("category").agg(
    sum("amount").alias("total_revenue"),
    count("*").alias("transactions")
)

이 패턴이 바로 비즈니스 대시보드가 구축되는 방식입니다.

Join 성능 최적화

작은 조회 테이블에 대한 Broadcast Join

df.join(broadcast(df_small), "id")

Broadcast Join은 셔플을 피하므로 작업이 훨씬 빠르게 수행됩니다.

요약

Join (left_semi 체크 포함)
Union / unionByName
groupBy와 집계 함수들
count, countDistinct, approx_count_distinct
Broadcast Join 최적화

빠진 내용이 있으면 댓글로 알려 주세요. 감사합니다!

🔥 7일 차: PySpark Joins, Unions, 그리고 GroupBy 가이드

PySpark에서의 Join — ETL 파이프라인의 핵심

기본 Join

같은 컬럼 이름으로 Join

Spark에서 지원하는 Join 유형

Union — DataFrame을 수직으로 쌓기

동일 스키마, 동일 순서인 경우 Union

컬럼 이름으로 Union (순서가 다른 경우)

GroupBy + Aggregation — 비즈니스 로직 레이어

예시

`count`와 `countDistinct`

Approximate Distinct Count (빠른 방법)

실제 ETL 예시 — 매출 집계

Sales와 Products 조인

카테고리별 매출 집계

Join 성능 최적화

작은 조회 테이블에 대한 Broadcast Join

요약

관련 글

Data Pipeline Tools 비교: 올바른 선택을 위한 핵심 기준

ETL에서 클린 코드: Python, Go, SQL이 각각 여러분에게 다른 사고 방식을 가르쳐 줍니다

비교3

WTF는 분산 데이터 웨어하우징이란?

PySpark에서의 Join — ETL 파이프라인의 핵심

기본 Join

같은 컬럼 이름으로 Join

Spark에서 지원하는 Join 유형

Union — DataFrame을 수직으로 쌓기

동일 스키마, 동일 순서인 경우 Union

컬럼 이름으로 Union (순서가 다른 경우)

GroupBy + Aggregation — 비즈니스 로직 레이어

예시

count와 countDistinct

Approximate Distinct Count (빠른 방법)

실제 ETL 예시 — 매출 집계

Sales와 Products 조인

카테고리별 매출 집계

Join 성능 최적화

작은 조회 테이블에 대한 Broadcast Join

요약

관련 글

Data Pipeline Tools 비교: 올바른 선택을 위한 핵심 기준

ETL에서 클린 코드: Python, Go, SQL이 각각 여러분에게 다른 사고 방식을 가르쳐 줍니다

비교3

WTF는 분산 데이터 웨어하우징이란?

`count`와 `countDistinct`