Power BI에서 여러 소스의 데이터 가져오기: 완전 초보자 친화 가이드
Source: Dev.to
Introduction
모든 성공적인 Power BI 보고서의 기반은 신뢰할 수 있는 데이터 수집입니다. 대시보드가 시각적으로 얼마나 매력적이든, 기본 데이터가 불완전하거나 일관성이 없으며 제대로 이해되지 않으면 인사이트는 오해를 불러일으킵니다.
실제 비즈니스 환경에서는 데이터가 단일 소스에서 오는 경우는 드뭅니다. 데이터 분석가로서 다음과 같은 다양한 소스를 다루어야 할 수도 있습니다:
- Excel 파일
- CSV 텍스트 파일
- SQL Server 데이터베이스
- JSON API
- PDF 보고서
- SharePoint 폴더
모두 같은 프로젝트 내에서.
Power BI는 강력한 Get Data와 Power Query 기능을 통해 이러한 복잡성을 처리하도록 설계되었습니다.
이 블로그에서는 다음을 배울 수 있습니다:
- Power BI에서 여러 데이터 소스에 연결하는 방법
- 데이터 모델을 구축하기 전에 데이터를 미리 보고 품질을 평가하는 방법
끝까지 읽으면 다양한 데이터 소스를 자신 있게 다루고 의미 있는 분석을 위해 데이터를 준비할 수 있게 됩니다.
Power BI 데이터 아키텍처 고수준 개요
이 워크플로에서 Power BI는 여러 소스의 데이터를 한데 모아 분석을 위해 준비하는 중앙 허브 역할을 합니다.
아키텍처
Power BI Desktop → reporting, modeling, and development environment
Multiple data sources, such as:
• Excel and Text/CSV files
• SQL Server databases
• JSON and PDF files
• SharePoint folders
Power Query Editor → cleaning, transforming, and profiling data
모든 데이터는 Power Query를 통해 Power BI로 흐르며, 여기서 검토 및 준비된 후 데이터 모델에 로드됩니다.
What You’ll Accomplish in This Guide
In this step‑by‑step walkthrough you will:
- Power BI Desktop을 열고 구성하기
- Excel, CSV, 데이터베이스(SQL Server), JSON, PDF 및 SharePoint에서 데이터 연결하기
- Power Query를 사용해 원본 데이터를 미리 보고 이해하기
- Column Quality, Column Distribution, Column Profile 사용하기
- 일반적인 데이터 품질 문제를 조기에 식별하기
- 모델링 및 보고를 위한 데이터 세트 준비하기
Power BI Desktop 시작하기
이 가이드를 따라 연습하려면 먼저 연습 파일을 다운로드하십시오:
🔗
다운로드 후:
- 폴더를 압축 해제합니다.
- Power BI Desktop에서 01-Starter-Sales Analysis.pbix 파일을 엽니다.
- 이 시작 파일은 자동 관계 감지를 비활성화하여 데이터 수집 및 프로파일링에 집중할 수 있도록 합니다.
Getting Data from SQL Server
Enterprise‑level data is often stored in relational databases. Power BI connects easily to SQL Server.
Steps to connect
-
Home → Get Data → SQL Server
-
Enter:
Server: localhost Database: (leave blank) -
Select Windows Authentication (Windows → Use my current credentials) and click Connect.
-
If you receive a warning that an encrypted connection cannot be established, click OK.
-
In the Navigator pane, expand the AdventureWorksDW2020 database and select the following tables:
DimEmployeeDimEmployeeSalesTerritoryDimProductDimResellerDimSalesTerritoryFactResellerSales
-
Click Transform Data.
Power Query Editor opens with six queries loaded from SQL Server.
Previewing Data in Power Query Editor
- Queries Pane – each table appears as a separate query on the left. Selecting a query displays a preview of its contents.
Dimension Tables (Dim)
| Table | Description |
|---|---|
DimEmployee | 직원당 한 행 |
DimProduct | 제품당 한 행 |
DimReseller | 리셀러당 한 행 |
DimSalesTerritory | 지역, 국가 및 그룹 |
Fact Tables (Fact)
| Table | Description |
|---|---|
FactResellerSales | 판매 주문 라인당 한 행 |
Understanding the difference between fact and dimension tables is essential for proper star‑schema data modeling in Power BI.
Power Query 데이터 프로파일링 기능 사용
Power Query에는 모델링 전에 데이터 품질을 평가할 수 있는 내장 도구가 포함되어 있습니다.
열 품질
-
View → Column Quality
다음을 확인할 수 있습니다:
- 유효한 값의 비율
- 빈(null) 값
- 오류
예시:
DimEmployee의 Position 열에 94 % 빈 값이 포함되어 있어 데이터 품질 문제가 있을 가능성을 나타냅니다.
열 분포
-
View → Column Distribution
이제 다음을 확인할 수 있습니다:
- 고유값 개수
- 유일값 개수
예시:
EmployeeKey는 고유값과 유일값 개수가 동일합니다 → 모든 행이 고유함을 의미합니다(키 및 관계를 만들 때 유용합니다).
열 프로파일
-
View → Column Profile
-
열을 선택합니다. 예:
DimReseller의 BusinessType.일관되지 않은 레이블을 발견할 수 있습니다:
- “Warehouse”
- “Ware House”(오타)
이러한 불일치는 분석 전에 수정해야 하며, 그렇지 않으면 부정확한 그룹화나 보고 오류가 발생할 수 있습니다.
텍스트/CSV 파일에서 데이터 가져오기
플랫 파일은 보고 워크플로우에서 매우 일반적입니다.
CSV 파일 가져오기
-
홈 → 데이터 가져오기 → 텍스트/CSV
-
ResellerSalesTargets.csv 선택
- 영업 사원당 연도별 한 행
- 월별 판매 목표
- null 값 대신 하이픈 사용
동일한 과정을 반복하여 색상‑서식 값을 포함하는 ColorFormats.csv를 가져옵니다.
Excel 파일에서 데이터 가져오기
Excel은 가장 널리 사용되는 비즈니스 데이터 도구 중 하나입니다.
Excel 데이터를 가져오려면
- Home → Get Data → Excel
- Excel 파일을 선택합니다
- Transform Data 클릭
Typical contents:
- 예산 및 재무 시트
- 수동 비즈니스 입력
- 운영 로그 및 추적기
JSON 파일에서 데이터 가져오기
JSON 파일은 API 및 웹 기반 애플리케이션에서 일반적으로 생성됩니다.
단계
- Home → Get Data → JSON
- JSON 파일 또는 API 내보내기 선택
- Power Query가 중첩 구조를 확장합니다
Note: JSON은 계층적 형식 때문에 추가 변환이 필요할 때가 많습니다.
PDF 파일에서 데이터 가져오기
Power BI는 PDF 문서에서 구조화된 테이블을 추출할 수 있습니다.
단계
- Home → Get Data → PDF
- PDF 파일 선택
일반적인 사용 사례:
- 재무제표
- 은행 보고서
- 컴플라이언스 또는 규제 문서
SharePoint 폴더에서 데이터 가져오기
SharePoint는 조직 전반에 걸쳐 협업 파일 저장소로 널리 사용됩니다.
단계
- Home → Get Data → SharePoint Folder
- SharePoint 사이트 URL을 입력하고 프롬프트에 따라 연결합니다.
(필요한 파일을 변형하기 위해 동일한 “Transform Data” 워크플로를 계속 진행합니다.)
단계 2 – SharePoint 사이트 URL 입력 및 인증
(이 단계에 대한 추가 내용이 제공되지 않았습니다.)
단계 3 – 필요에 따라 파일 필터링 및 결합
이 접근 방식은 **“공유 위치에 저장된 여러 파일”**을 작업할 때 이상적입니다.
왜 데이터 프로파일링이 중요한가
대시보드를 만들기 전에 반드시 해야 할 일:
- 누락된 값 식별
- 일관성 없는 레이블 감지
- 관계를 위한 핵심 열 검증
- 값 분포 이해
이 단계를 건너뛰면 다음과 같은 문제가 발생할 수 있습니다:
- 깨진 관계
- 잘못된 KPI
- 오해를 불러일으키는 인사이트
Power Query는 시각화하기 전에 데이터가 정확하고, 신뢰할 수 있으며, 비즈니스에 준비된 상태임을 보장합니다.
결론
여러 소스에서 데이터를 가져오는 것은 모든 Power BI 데이터 분석가에게 핵심 역량입니다. Power BI는 다음을 통해 이 과정을 원활하게 합니다:
- 다양한 데이터 커넥터 지원
- 모델링 전에 데이터를 미리 보기 및 프로파일링할 수 있는 강력한 도구 제공
SQL Server, Excel, CSV, JSON, PDF, 그리고 SharePoint 데이터를 Power BI에 결합하면 자신 있게 포괄적이고 기업 수준의 보고서를 만들 수 있습니다.
이 단계를 마스터하면 대시보드가 시각적으로 매력적일 뿐만 아니라 정확하고 신뢰할 수 있으며 실제로 큰 영향을 미치는 것이 보장됩니다.