使用 AWS Glue Data Quality 实现可靠数据

发布: 1个月前 (2025年12月25日 GMT+8 21:42)

11 分钟阅读

原文: Dev.to

Source: Dev.to

日期：2025年9月27日
演讲者：Abinaya，AWS 社区建设者

什么是 AWS Glue?

AWS Glue 是一个 无服务器 ETL（提取、转换、加载）服务，帮助您将数据从一个位置移动到另一个位置（例如，从数据库到数据湖），并在此过程中进行转换。

关键特性

数据爬虫 – 自动发现并推断数据的模式。
数据目录 – 用于存储数据资产元数据的集中仓库。
ETL 作业 – 可按计划运行或在事件触发时运行。

Glue 非常适合构建数据管道，但如果管道中的数据不一致、缺失或不正确怎么办？这时 AWS Glue Data Quality 就派上用场了。

为什么数据质量很重要

不一致或低质量的数据会导致不可靠的洞察。
示例: 一个电子商务网站如果出现重复订单或缺少客户详情，可能会报告夸大的销售额或不完整的客户档案。

传统的验证方法通常需要自定义脚本、持续维护，并且需要与 ETL 作业分离执行——这是一项耗时且成本高昂的工作。

AWS Glue Data Quality 使验证 更快且自动化。您可以直接在 Glue 作业中定义数据质量规则，省去单独的验证流水线。

了解 AWS Glue 数据质量

实际功能

AWS Glue Data Quality 基于 DeeQu，这是 Amazon 创建的开源数据质量框架。它提供了三种主要构造：

构造	描述
Rule	您定义的单个数据质量检查。
Ruleset	为验证而分组的相关规则集合。
Tags / Parameters	用于跟踪成本和组织规则集的元数据。

典型功能：

用于验证的 Ruleset – 定义数据必须满足的条件。
性能监控 – 随时间跟踪质量检查的表现。
在 AWS Cost Explorer 中的成本跟踪 – 精确查看在数据质量检查上花费了多少。

技术基础

DeeQu 是开源的，这意味着您不会被锁定在专有工具中。如果以后离开 AWS Glue，仍然可以重用您的数据质量规则，因为它们基于开放标准。

关键洞察

运行时和成本

运行时 随规则数量增加（检查越多 → 执行时间越长）。
成本基于您消耗的计算资源（DPUs），且保持在低水平——通常每次运行 $0.18 – $0.54。
即使检查很多，Glue 作业的成本通常 远低于一美元，远比构建和维护自定义验证系统便宜。

跟踪和优化

为规则集打标签（例如 team:marketing、project:customer-analytics）可在 AWS Cost Explorer 中归属费用，并按团队或项目管理预算。
验证时间可从 几天降至几小时，因为 Glue Data Quality 可以在处理过程中 内存中运行检查，而不是作为单独的后处理步骤。

规则集类别说明

类别	描述	示例
个人规则	单个数据质量检查。	• 确保 `email` 列没有空值。 • 验证 `order_amount` 始终为正数。 • 确认 `created_date` 不在未来。
规则集	相关规则的逻辑分组。	将所有 customer‑profile 检查捆绑到一个规则集，将所有 order‑transaction 检查捆绑到另一个规则集，使管理和报告更容易。

要点

AWS Glue Data Quality 简化并加速数据验证工作流。
成本效益高：每次运行费用低，并通过标签实现细粒度成本跟踪。
可扩展：与无服务器 Glue 作业无缝配合，处理大规模数据而不影响性能。
开源基础（DeeQu）确保可移植性和面向未来的保障。

如果您正在 AWS 上构建或维护数据管道，试试 Glue Data Quality ——它可能正是将不可靠的数据转化为可信资产的关键缺失环节。

组织规则集

当您创建规则集时，考虑它们如何满足您的需求。例如，您可能会有：

Customer Data – 用于客户信息的规则。
Order Validation – 用于订单详情的规则。
Financial Compliance – 用于遵循金融法规的规则。

标签和参数

标签（或参数）让您可以向规则集添加额外信息。这在以下方面非常有帮助：

按团队、部门或项目组织规则集。
在细粒度层面跟踪成本。
实施治理政策。

简而言之，这种三级结构让您能够以最适合公司需求的方式组织数据质量检查。

实施最佳实践

1. 从简单开始，然后扩展

先使用简单的规则，随后逐步添加。可以先进行以下基础检查：

是否存在本应有数据却缺失的情况？
数据类型是否正确？
所有必需的字段是否都已存在？

当这些基本检查运行良好后，可以加入更复杂的规则，例如：

验证不同数据集之间的数据链接是否正确。
对不同来源的数据进行对比。

2. 使用标签进行成本监控

从一开始就为规则集打标签，这样在系统规模扩大时可以随时查看花费。当有人问“我们在营销数据库的数据质量上花了多少钱？”时，你会感谢自己提前做好了标签。

3. 启用缓存

开启缓存以提升速度。AWS Glue Data Quality 提供缓存功能：如果对同一数据运行多个检查，系统无需每次都重新读取数据，从而加快处理速度并节省费用。

4. 主动监控

将警报和仪表板连接起来，实时监控。AWS Glue Data Quality 可以通过 Amazon EventBridge 在出现数据质量问题时发送通知。设置警报，使团队能够立即收到通知，并在 Amazon CloudWatch（或其他工具）中创建仪表板，以跟踪数据质量随时间的趋势。

5. 关键优势

演讲者强调，AWS Glue Data Quality 可扩展、可靠且具成本效益，适用于验证。它不仅仅是提供数据质量检查，更是将这些检查自动化地嵌入到你的管道中，而不会提升成本或需要持续的人工干预。

AWS Glue Data Quality 还 自动化规则创建，帮助你省去大量手动工作。你甚至可以使用内置的机器学习功能，根据数据自动建议规则。简而言之，你将花更少的时间编写验证代码，更多的时间用于使用数据。

实际场景

场景 1：电子商务订单流水线

想象一下，您正在从多个来源收集订单数据——您的网站、移动应用以及第三方市场。规则集可以检查：

订单 ID 唯一。
客户电子邮件格式有效。
订单总额与各行项目的金额之和相匹配。
支付状态是允许的值之一。

如果任何订单未通过这些检查，您可以配置流水线将不合格记录分离出来，向团队发送警报，并让合格记录继续向下游传输。

场景 2：医疗数据合规

对于医疗机构而言，数据质量是法律要求。AWS Glue Data Quality 可以验证：

患者标识符存在且格式正确。
出生日期在有效范围内。
用于监管报告的所有必填字段均已填写。
敏感数据已正确加密。

系统会自动生成合规报告，显示哪些记录通过，哪些需要审查。

结论

AWS Glue Data Quality 将混乱且不可靠的数据转化为可信的信息，团队可以自信地用于报告和决策。通过从一开始就在管道中嵌入数据质量检查，您可以实现更快的结果、更低的成本，以及在共享仪表板或报告时遇到的问题大幅减少。

对于在 AWS 上构建数据系统的任何人来说，从少数几个简单规则开始并逐步扩展数据质量计划，是让您的工作每天都更加可靠和值得信赖的明智方式。

关于作者

作为 AWS Community Builder，我喜欢通过自己的经验和活动分享所学，并帮助他人在道路上前行。如果您觉得这有帮助或有任何问题，请随时联系我！🚀

🔗 在 LinkedIn 上与我联系

参考文献

活动: AWS User Group Chennai Meetup
主题: 使用 AWS Glue 数据质量实现可靠数据
日期: 2025年9月27日

使用 AWS Glue Data Quality 实现可靠数据

什么是 AWS Glue?

为什么数据质量很重要

了解 AWS Glue 数据质量

实际功能

技术基础

关键洞察

运行时和成本

跟踪和优化

规则集类别说明

要点

组织规则集

标签和参数

实施最佳实践

1. 从简单开始，然后扩展

2. 使用标签进行成本监控

3. 启用缓存

4. 主动监控

5. 关键优势

实际场景

场景 1：电子商务订单流水线

场景 2：医疗数据合规

结论

关于作者

参考文献

也发布于

相关文章

面向独立 .NET 开发者的 $0 本地化技术栈

构建 AI 驱动的代码编辑器：（第2部分）类似 LLM 的解释器

DevOps 网络（高级，面向生产）

零缓冲 4K 流媒体背后的工程：深入探讨高性能 Smart4k IPTV 架构

什么是 AWS Glue?

为什么数据质量很重要

了解 AWS Glue 数据质量

实际功能

技术基础

关键洞察

运行时和成本

跟踪和优化

规则集类别说明

要点

组织规则集

标签和参数

实施最佳实践

1. 从简单开始，然后扩展

2. 使用标签进行成本监控

3. 启用缓存

4. 主动监控

5. 关键优势

实际场景

场景 1：电子商务订单流水线

场景 2：医疗数据合规

结论

关于作者

参考文献

也发布于

相关文章

面向独立 .NET 开发者的 $0 本地化技术栈

构建 AI 驱动的代码编辑器：（第2部分）类似 LLM 的解释器

DevOps 网络（高级，面向生产）

零缓冲 4K 流媒体背后的工程：深入探讨高性能 Smart4k IPTV 架构

场景 1：电子商务订单流水线

场景 2：医疗数据合规