Power BI 中从多个来源获取数据:完整的初学者友好指南
Source: Dev.to
(请提供需要翻译的正文内容,我才能为您完成简体中文翻译。)
介绍
每个成功的 Power BI 报表的基础是可靠的数据摄取。无论仪表板多么视觉上吸引人,如果底层数据不完整、不一致或理解不透彻,洞察将会误导。
在真实的商业环境中,数据很少来自单一来源。作为数据分析师,你可能需要处理:
- Excel 文件
- CSV 文本文件
- SQL Server 数据库
- JSON API
- PDF 报告
- SharePoint 文件夹
全部在同一个项目中。
Power BI 通过强大的 Get Data 和 Power Query 功能来应对这种复杂性。
在本博客中,你将学习如何:
- 在 Power BI 中连接多个数据源
- 在构建数据模型之前预览数据并评估其质量
完成后,你将能够自信地处理多样的数据源并为有意义的分析做好准备。
Power BI 数据架构的高级概览
在此工作流中,Power BI 充当中心枢纽,将来自多个来源的数据汇集并准备进行分析。
架构
Power BI Desktop → reporting, modeling, and development environment
Multiple data sources, such as:
• Excel and Text/CSV files
• SQL Server databases
• JSON and PDF files
• SharePoint folders
Power Query Editor → cleaning, transforming, and profiling data
所有数据通过 Power Query 流入 Power BI,在加载到数据模型之前进行审查和准备。
您将在本指南中完成的内容
在本分步演练中,您将:
- 打开并配置 Power BI Desktop
- 连接来自 Excel、CSV、数据库(SQL Server)、JSON、PDF 和 SharePoint 的数据
- 使用 Power Query 预览并了解源数据
- 使用 Column Quality、Column Distribution 和 Column Profile
- 及早识别常见的数据质量问题
- 为建模和报告准备数据集
开始使用 Power BI Desktop
要跟随本指南进行练习,请先下载练习文件:
🔗
下载后:
- 解压文件夹。
- 在 Power BI Desktop 中打开 01-Starter-Sales Analysis.pbix。
- 该入门文件禁用了自动关系检测,以便您专注于数据摄取和分析。
Source: …
从 SQL Server 获取数据
企业级数据通常存储在关系型数据库中。Power BI 可以轻松连接到 SQL Server。
连接步骤
-
主页 → 获取数据 → SQL Server
-
输入:
Server: localhost Database: (leave blank) -
选择 Windows Authentication(Windows → 使用我的当前凭据),然后点击 Connect。
-
如果出现“无法建立加密连接”的警告,点击 OK。
-
在 Navigator 窗格中,展开 AdventureWorksDW2020 数据库并选择以下表:
DimEmployeeDimEmployeeSalesTerritoryDimProductDimResellerDimSalesTerritoryFactResellerSales
-
点击 Transform Data。
Power Query 编辑器打开,并已加载来自 SQL Server 的六个查询。
在 Power Query 编辑器中预览数据
- 查询窗格 – 每个表在左侧显示为单独的查询。选择查询即可预览其内容。
维度表 (Dim)
| 表格 | 描述 |
|---|---|
DimEmployee | 每行对应一名员工 |
DimProduct | 每行对应一种产品 |
DimReseller | 每行对应一个经销商 |
DimSalesTerritory | 区域、国家和分组 |
事实表 (Fact)
| 表格 | 描述 |
|---|---|
FactResellerSales | 每行对应一个销售订单行项 |
了解事实表和维度表之间的区别是 Power BI 中正确构建星型模式数据模型的关键。
使用 Power Query 数据分析功能
Power Query 包含内置工具,帮助在建模前评估数据质量。
列质量
-
视图 → 列质量
这会显示:
- 有效值的百分比
- 空(null)值
- 错误
示例:
DimEmployee中的 Position 列包含 94 % 的空值,表明可能存在数据质量问题。
列分布
-
视图 → 列分布
您现在可以看到:
- 不同值的数量
- 唯一值的数量
示例:
EmployeeKey显示相同的不同值计数和唯一值计数 → 每行都是唯一的(在创建键和关系时很有用)。
列概况
-
视图 → 列概况
-
选择一列,例如
DimReseller中的 BusinessType。您可能会注意到标签不一致:
- “Warehouse”
- “Ware House”(拼写错误)
必须在分析之前纠正此不一致,以防止分组不准确或报告错误。
从文本/CSV文件获取数据
平面文件在报告工作流中非常常见。
导入 CSV 文件
-
Home → Get Data → Text/CSV
-
选择 ResellerSalesTargets.csv
- 每位销售人员每年一行
- 每月销售目标
- 用连字符代替空值
重复此过程以导入 ColorFormats.csv,其中包含颜色格式化值。
从 Excel 文件获取数据
Excel 仍然是最广泛使用的商业数据工具之一。
导入 Excel 数据
- 主页 → 获取数据 → Excel
- 选择 Excel 文件
- 点击 转换数据
常见内容:
- 预算和财务表
- 手动业务输入
- 运营日志和跟踪器
从 JSON 文件获取数据
JSON 文件通常由 API 和基于 Web 的应用程序生成。
步骤
- Home → Get Data → JSON
- 选择 JSON 文件或 API 导出
- Power Query 展开嵌套结构
注意: 由于其层次结构,JSON 通常需要额外的转换。
从 PDF 文件获取数据
Power BI 可以从 PDF 文档中提取结构化表格。
步骤
- Home → Get Data → PDF
- 选择 PDF 文件
典型使用场景:
- 财务报表
- 银行报告
- 合规或监管文件
Source:
从 SharePoint 文件夹获取数据
SharePoint 在组织内部的协作文件存储中被广泛使用。
步骤
- Home → Get Data → SharePoint Folder
- 输入 SharePoint 站点 URL 并按照提示进行连接。
(继续使用相同的 “Transform Data” 工作流来整理所需的文件。)
步骤 2 – 输入 SharePoint 站点 URL 并进行身份验证
(此步骤未提供其他内容。)
步骤 3 – 根据需要筛选和合并文件
这种方法在处理 “存储在共享位置的多个文件” 时非常理想。
为什么数据概况很重要
在构建仪表板之前,您必须:
- 识别缺失值
- 检测不一致的标签
- 验证关键列的关系
- 了解数值分布
跳过此步骤可能导致:
- 关系断裂
- KPI(关键绩效指标)错误
- 误导性的洞察
Power Query 确保您的数据在可视化之前是准确、可靠且可用于业务的。
结论
从多个来源获取数据是每个 Power BI 数据分析师的核心技能。Power BI 通过以下方式使此过程无缝:
- 支持广泛的数据连接器
- 提供强大的工具,在建模前预览和分析数据
通过在 Power BI 中结合 SQL Server、Excel、CSV、JSON、PDF 和 SharePoint 数据,您可以自信地构建全面的企业级报告。
掌握此步骤可确保您的仪表板不仅视觉上吸引人,而且 准确、可靠且真正产生影响。