DP-600 Fabric Analytics Engineer – 结构化学习笔记

发布: 5天前 (2025年12月7日 GMT+8 00:23)

7 min read

原文: Dev.to

Source: Dev.to

概览

DP‑600 考试侧重于在 Microsoft Fabric 中设计、构建、治理和优化分析解决方案。
关键职责包括：

维护数据分析解决方案
准备数据
实施和管理语义模型

治理、管理与生命周期

安全与治理

安全层级
- 工作区级角色
- 项目级权限
- 数据级安全（RLS / CLS / OLS）
- 文件级安全
- 敏感度标签
- 认可
行级安全 (Row‑Level Security, RLS) – 限制用户可查看的行（例如，“Bangladesh” 角色只能看到 Country = 'BD' 的行）。
列级安全 (Column‑Level Security, CLS) – 对特定角色隐藏列或整张表（例如，隐藏 Salary、SSN）。
文件系统安全 – 对浏览 OneLake 文件区与通过语义模型查询表的权限进行分离。
敏感度标签 – 对数据进行分类（Public、General、Confidential、Highly Confidential – No Export），并可强制执行：
- 阻止导出为 Excel/CSV
- 阻止发布到网页
- 限制外部共享
认可 (Endorsement) – 表示项目的可信度：
- Promoted – 团队级别的信任
- Certified – 组织级别的单一真实来源（仅限数据管理员/管理员）

工作区角色

角色	能力
Admin	完全控制：更改设置、添加/移除用户、删除项目。
Member / Contributor	创建和编辑项目（Lakehouse、Dataflow、报告、Pipeline、Notebook）。不能更改工作区级别的管理员设置（例如容量）。
Viewer	只读：查看报告、仪表板、语义模型等。不能创建、编辑或发布新项目。

考试技巧： 能打开报告但不能编辑或创建新 Dataflow 的用户，很可能是 Viewer；要执行这些操作至少需要 Contributor 权限。

项目级权限

工作区内的每个项目（Lakehouse、Warehouse、语义模型、报告、Notebook、Dataflow）都有各自的权限集合。
用户可能在工作区层面是 Contributor，但仍缺少：

对语义模型的 Build 权限 → 无法创建新报告或使用 “Analyze in Excel”。

考试技巧： “用户可以查看报告，但不能使用 ‘Analyze in Excel’ 或从数据集创建新报告。” → 缺少语义模型的 Build 权限。

租户、容量与工作区设置

范围	主要控制
Tenant	组织范围的策略：Fabric 启用、导出策略、访客/外部共享、敏感度标签集成、试用激活。
Capacity	计算配置（如 F64、F128、Premium）、地区、工作负载设置（Spark、Dataflows、Pipelines、DirectLake）、暂停/恢复、并发限制、内存。
Workspace	团队/项目范围；分配的容量（共享或 Fabric/Premium）；存放 Lakehouses、Warehouses、Dataflows、Pipelines、语义模型、报告。

考试技巧： “工作区没有显示创建 Lakehouse 或 Dataflow Gen2 的选项，但用户仍能创建报告。” → 该工作区使用 shared capacity，或租户已禁用 Fabric 项目创建。

常见容量相关问题

Dataflows 卡在队列中 → 容量压力大或工作负载被禁用
Notebook 启动失败 → Spark 容量耗尽
DirectLake 变慢 → 容量过载、缓存被驱逐

开发生命周期

Git 集成

将 Fabric 工作区连接到 Git 仓库。
存储内容：
- 报告以 PBIP / PBIR（基于文本）形式
- Notebook（.ipynb 或脚本）
- SQL 脚本
- Pipeline 定义（代码）

好处： 协作、基于 PR 的审查、历史/回滚、CI/CD 集成。

PBIX 与 PBIP / PBIR

格式	特点
PBIX	二进制的传统 Power BI 文件；不易进行源代码管理。
PBIP / PBIR	基于文本的项目结构；将元数据、模型和布局分离为文件/文件夹；友好于 Git。

考试重点： 理解为何在版本控制和自动化部署中更倾向使用 PBIP/PBIR。

部署管道

阶段：Development → Test → Production
可部署项目：语义模型（数据集）、报告、仪表板、部分 Fabric 项目（通过脚本）。
阶段特定的规则/参数（例如，不同环境的数据库连接）。

考试技巧： “在将更改从 Dev 推送到 Prod 时，需要指向不同的数据库。” → 使用 deployment pipeline 参数 来绑定数据源。

XMLA 端点

提供通过外部工具对语义模型进行企业级管理的能力，例如：

Tabular Editor
SQL Server Management Studio (SSMS)
用于部署和分区管理的自定义脚本

常见操作包括对大表进行分区、刷新模型以及以编程方式应用基于角色的安全。

监控与影响分析

Lineage 可视化展示数据从源（Lakehouse、Warehouse）经 Dataflows、Pipelines、语义模型流向报告的路径。
影响分析帮助评估模式更改或安全更新对下游对象的影响。

关键考试模式汇总

场景	所涉及概念
用户可以查看报告但不能编辑或创建 Dataflow	Viewer 角色 vs. 所需 Contributor 权限
用户无法在数据集上使用 “Analyze in Excel”	缺少语义模型的 Build 权限
用户可以通过 SQL 查询 Lakehouse 表，但无法打开 Files 区域	缺少 OneLake 文件系统权限
应用标签后导出被阻止	Highly Confidential – No Export 敏感度标签
中央 BI 团队希望单一真实来源的认可	使用 Certification 认可
工作区缺少 Lakehouse/Dataflow 创建选项	工作区在 shared capacity 或租户层面禁用了 Fabric 项目创建
将 Dev 推向 Prod 并使用不同的数据库连接	使用 deployment pipeline 的环境特定参数