Power BI 中从多个来源获取数据:完整的初学者友好指南

发布: (2025年12月31日 GMT+8 17:23)
9 min read
原文: Dev.to

Source: Dev.to

(请提供需要翻译的正文内容,我才能为您完成简体中文翻译。)

介绍

每个成功的 Power BI 报表的基础是可靠的数据摄取。无论仪表板多么视觉上吸引人,如果底层数据不完整、不一致或理解不透彻,洞察将会误导。

在真实的商业环境中,数据很少来自单一来源。作为数据分析师,你可能需要处理:

  • Excel 文件
  • CSV 文本文件
  • SQL Server 数据库
  • JSON API
  • PDF 报告
  • SharePoint 文件夹

全部在同一个项目中。

Power BI 通过强大的 Get DataPower Query 功能来应对这种复杂性。

在本博客中,你将学习如何:

  • 在 Power BI 中连接多个数据源
  • 在构建数据模型之前预览数据并评估其质量

完成后,你将能够自信地处理多样的数据源并为有意义的分析做好准备。

Power BI 数据架构的高级概览

在此工作流中,Power BI 充当中心枢纽,将来自多个来源的数据汇集并准备进行分析。

架构

Power BI Desktop → reporting, modeling, and development environment
Multiple data sources, such as:
  • Excel and Text/CSV files
  • SQL Server databases
  • JSON and PDF files
  • SharePoint folders
Power Query Editor → cleaning, transforming, and profiling data

所有数据通过 Power Query 流入 Power BI,在加载到数据模型之前进行审查和准备。

您将在本指南中完成的内容

在本分步演练中,您将:

  1. 打开并配置 Power BI Desktop
  2. 连接来自 Excel、CSV、数据库(SQL Server)、JSON、PDF 和 SharePoint 的数据
  3. 使用 Power Query 预览并了解源数据
  4. 使用 Column QualityColumn DistributionColumn Profile
  5. 及早识别常见的数据质量问题
  6. 为建模和报告准备数据集

开始使用 Power BI Desktop

要跟随本指南进行练习,请先下载练习文件:

🔗

下载后:

  1. 解压文件夹。
  2. 在 Power BI Desktop 中打开 01-Starter-Sales Analysis.pbix
    • 该入门文件禁用了自动关系检测,以便您专注于数据摄取和分析。

Source:

从 SQL Server 获取数据

企业级数据通常存储在关系型数据库中。Power BI 可以轻松连接到 SQL Server。

连接步骤

  1. 主页 → 获取数据 → SQL Server

  2. 输入:

    Server: localhost
    Database: (leave blank)
  3. 选择 Windows Authentication(Windows → 使用我的当前凭据),然后点击 Connect

  4. 如果出现“无法建立加密连接”的警告,点击 OK

  5. Navigator 窗格中,展开 AdventureWorksDW2020 数据库并选择以下表:

    • DimEmployee
    • DimEmployeeSalesTerritory
    • DimProduct
    • DimReseller
    • DimSalesTerritory
    • FactResellerSales
  6. 点击 Transform Data

Power Query 编辑器打开,并已加载来自 SQL Server 的六个查询。

在 Power Query 编辑器中预览数据

  • 查询窗格 – 每个表在左侧显示为单独的查询。选择查询即可预览其内容。

维度表 (Dim)

表格描述
DimEmployee每行对应一名员工
DimProduct每行对应一种产品
DimReseller每行对应一个经销商
DimSalesTerritory区域、国家和分组

事实表 (Fact)

表格描述
FactResellerSales每行对应一个销售订单行项

了解事实表和维度表之间的区别是 Power BI 中正确构建星型模式数据模型的关键。

使用 Power Query 数据分析功能

Power Query 包含内置工具,帮助在建模前评估数据质量。

列质量

  1. 视图 → 列质量

    这会显示:

    • 有效值的百分比
    • 空(null)值
    • 错误

    示例: DimEmployee 中的 Position 列包含 94 % 的空值,表明可能存在数据质量问题。

列分布

  1. 视图 → 列分布

    您现在可以看到:

    • 不同值的数量
    • 唯一值的数量

    示例: EmployeeKey 显示相同的不同值计数和唯一值计数 → 每行都是唯一的(在创建键和关系时很有用)。

列概况

  1. 视图 → 列概况

  2. 选择一列,例如 DimReseller 中的 BusinessType

    您可能会注意到标签不一致:

    • “Warehouse”
    • “Ware House”(拼写错误)

    必须在分析之前纠正此不一致,以防止分组不准确或报告错误。

从文本/CSV文件获取数据

平面文件在报告工作流中非常常见。

导入 CSV 文件

  1. Home → Get Data → Text/CSV

  2. 选择 ResellerSalesTargets.csv

    • 每位销售人员每年一行
    • 每月销售目标
    • 用连字符代替空值

重复此过程以导入 ColorFormats.csv,其中包含颜色格式化值。

从 Excel 文件获取数据

Excel 仍然是最广泛使用的商业数据工具之一。

导入 Excel 数据

  1. 主页 → 获取数据 → Excel
  2. 选择 Excel 文件
  3. 点击 转换数据

常见内容:

  • 预算和财务表
  • 手动业务输入
  • 运营日志和跟踪器

从 JSON 文件获取数据

JSON 文件通常由 API 和基于 Web 的应用程序生成。

步骤

  1. Home → Get Data → JSON
  2. 选择 JSON 文件或 API 导出
  3. Power Query 展开嵌套结构

注意: 由于其层次结构,JSON 通常需要额外的转换。

从 PDF 文件获取数据

Power BI 可以从 PDF 文档中提取结构化表格。

步骤

  1. Home → Get Data → PDF
  2. 选择 PDF 文件

典型使用场景:

  • 财务报表
  • 银行报告
  • 合规或监管文件

Source:

从 SharePoint 文件夹获取数据

SharePoint 在组织内部的协作文件存储中被广泛使用。

步骤

  1. Home → Get Data → SharePoint Folder
  2. 输入 SharePoint 站点 URL 并按照提示进行连接。

(继续使用相同的 “Transform Data” 工作流来整理所需的文件。)

步骤 2 – 输入 SharePoint 站点 URL 并进行身份验证

(此步骤未提供其他内容。)

步骤 3 – 根据需要筛选和合并文件

这种方法在处理 “存储在共享位置的多个文件” 时非常理想。

为什么数据概况很重要

在构建仪表板之前,您必须:

  • 识别缺失值
  • 检测不一致的标签
  • 验证关键列的关系
  • 了解数值分布

跳过此步骤可能导致:

  • 关系断裂
  • KPI(关键绩效指标)错误
  • 误导性的洞察

Power Query 确保您的数据在可视化之前是准确、可靠且可用于业务的。

结论

从多个来源获取数据是每个 Power BI 数据分析师的核心技能。Power BI 通过以下方式使此过程无缝:

  • 支持广泛的数据连接器
  • 提供强大的工具,在建模前预览和分析数据

通过在 Power BI 中结合 SQL Server、Excel、CSV、JSON、PDF 和 SharePoint 数据,您可以自信地构建全面的企业级报告。

掌握此步骤可确保您的仪表板不仅视觉上吸引人,而且 准确、可靠且真正产生影响

Back to Blog

相关文章

阅读更多 »

在 MSSQL 上创建和控制资源池

封面图片:Craft and Control Resource Pools on MSSQL https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%...