使用 AWS Glue Data Quality 实现可靠数据

发布: (2025年12月25日 GMT+8 21:42)
11 分钟阅读
原文: Dev.to

Source: Dev.to

日期:2025年9月27日
演讲者:Abinaya,AWS 社区建设者

什么是 AWS Glue?

AWS Glue 是一个 无服务器 ETL(提取、转换、加载)服务,帮助您将数据从一个位置移动到另一个位置(例如,从数据库到数据湖),并在此过程中进行转换。

关键特性

  • 数据爬虫 – 自动发现并推断数据的模式。
  • 数据目录 – 用于存储数据资产元数据的集中仓库。
  • ETL 作业 – 可按计划运行或在事件触发时运行。

Glue 非常适合构建数据管道,但如果管道中的数据不一致、缺失或不正确怎么办?这时 AWS Glue Data Quality 就派上用场了。

为什么数据质量很重要

不一致或低质量的数据会导致不可靠的洞察。
示例: 一个电子商务网站如果出现重复订单或缺少客户详情,可能会报告夸大的销售额或不完整的客户档案。

传统的验证方法通常需要自定义脚本、持续维护,并且需要与 ETL 作业分离执行——这是一项耗时且成本高昂的工作。

AWS Glue Data Quality 使验证 更快且自动化。您可以直接在 Glue 作业中定义数据质量规则,省去单独的验证流水线。

了解 AWS Glue 数据质量

实际功能

AWS Glue Data Quality 基于 DeeQu,这是 Amazon 创建的开源数据质量框架。它提供了三种主要构造:

构造描述
Rule您定义的单个数据质量检查。
Ruleset为验证而分组的相关规则集合。
Tags / Parameters用于跟踪成本和组织规则集的元数据。

典型功能:

  • 用于验证的 Ruleset – 定义数据必须满足的条件。
  • 性能监控 – 随时间跟踪质量检查的表现。
  • 在 AWS Cost Explorer 中的成本跟踪 – 精确查看在数据质量检查上花费了多少。

技术基础

DeeQu 是开源的,这意味着您不会被锁定在专有工具中。如果以后离开 AWS Glue,仍然可以重用您的数据质量规则,因为它们基于开放标准。

关键洞察

运行时和成本

  • 运行时 随规则数量增加(检查越多 → 执行时间越长)。
  • 成本 基于您消耗的计算资源(DPUs),且保持在低水平——通常每次运行 $0.18 – $0.54
  • 即使检查很多,Glue 作业的成本通常 远低于一美元,远比构建和维护自定义验证系统便宜。

跟踪和优化

  • 为规则集打 标签(例如 team:marketingproject:customer-analytics)可在 AWS Cost Explorer 中归属费用,并按团队或项目管理预算。
  • 验证时间可从 几天降至几小时,因为 Glue Data Quality 可以在处理过程中 内存中运行检查,而不是作为单独的后处理步骤。

规则集类别说明

类别描述示例
个人规则单个数据质量检查。• 确保 email 列没有空值。
• 验证 order_amount 始终为正数。
• 确认 created_date 不在未来。
规则集相关规则的逻辑分组。将所有 customer‑profile 检查捆绑到一个规则集,将所有 order‑transaction 检查捆绑到另一个规则集,使管理和报告更容易。

要点

  • AWS Glue Data Quality 简化并加速数据验证工作流。
  • 成本效益高:每次运行费用低,并通过标签实现细粒度成本跟踪。
  • 可扩展:与无服务器 Glue 作业无缝配合,处理大规模数据而不影响性能。
  • 开源基础(DeeQu)确保可移植性和面向未来的保障。

如果您正在 AWS 上构建或维护数据管道,试试 Glue Data Quality ——它可能正是将不可靠的数据转化为可信资产的关键缺失环节。

组织规则集

当您创建规则集时,考虑它们如何满足您的需求。例如,您可能会有:

  • Customer Data – 用于客户信息的规则。
  • Order Validation – 用于订单详情的规则。
  • Financial Compliance – 用于遵循金融法规的规则。

标签和参数

标签(或参数)让您可以向规则集添加额外信息。这在以下方面非常有帮助:

  • 按团队、部门或项目组织规则集。
  • 在细粒度层面跟踪成本。
  • 实施治理政策。

简而言之,这种三级结构让您能够以最适合公司需求的方式组织数据质量检查。

实施最佳实践

1. 从简单开始,然后扩展

先使用简单的规则,随后逐步添加。可以先进行以下基础检查:

  • 是否存在本应有数据却缺失的情况?
  • 数据类型是否正确?
  • 所有必需的字段是否都已存在?

当这些基本检查运行良好后,可以加入更复杂的规则,例如:

  • 验证不同数据集之间的数据链接是否正确。
  • 对不同来源的数据进行对比。

2. 使用标签进行成本监控

从一开始就为规则集打标签,这样在系统规模扩大时可以随时查看花费。当有人问“我们在营销数据库的数据质量上花了多少钱?”时,你会感谢自己提前做好了标签。

3. 启用缓存

开启缓存以提升速度。AWS Glue Data Quality 提供缓存功能:如果对同一数据运行多个检查,系统无需每次都重新读取数据,从而加快处理速度并节省费用。

4. 主动监控

将警报和仪表板连接起来,实时监控。AWS Glue Data Quality 可以通过 Amazon EventBridge 在出现数据质量问题时发送通知。设置警报,使团队能够立即收到通知,并在 Amazon CloudWatch(或其他工具)中创建仪表板,以跟踪数据质量随时间的趋势。

5. 关键优势

演讲者强调,AWS Glue Data Quality 可扩展、可靠且具成本效益,适用于验证。它不仅仅是提供数据质量检查,更是将这些检查自动化地嵌入到你的管道中,而不会提升成本或需要持续的人工干预。

AWS Glue Data Quality 还 自动化规则创建,帮助你省去大量手动工作。你甚至可以使用内置的机器学习功能,根据数据自动建议规则。简而言之,你将花更少的时间编写验证代码,更多的时间用于使用数据。

实际场景

场景 1:电子商务订单流水线

想象一下,您正在从多个来源收集订单数据——您的网站、移动应用以及第三方市场。规则集可以检查:

  • 订单 ID 唯一。
  • 客户电子邮件格式有效。
  • 订单总额与各行项目的金额之和相匹配。
  • 支付状态是允许的值之一。

如果任何订单未通过这些检查,您可以配置流水线将不合格记录分离出来,向团队发送警报,并让合格记录继续向下游传输。

场景 2:医疗数据合规

对于医疗机构而言,数据质量是法律要求。AWS Glue Data Quality 可以验证:

  • 患者标识符存在且格式正确。
  • 出生日期在有效范围内。
  • 用于监管报告的所有必填字段均已填写。
  • 敏感数据已正确加密。

系统会自动生成合规报告,显示哪些记录通过,哪些需要审查。

结论

AWS Glue Data Quality 将混乱且不可靠的数据转化为可信的信息,团队可以自信地用于报告和决策。通过从一开始就在管道中嵌入数据质量检查,您可以实现更快的结果、更低的成本,以及在共享仪表板或报告时遇到的问题大幅减少。

对于在 AWS 上构建数据系统的任何人来说,从少数几个简单规则开始并逐步扩展数据质量计划,是让您的工作每天都更加可靠和值得信赖的明智方式。

关于作者

作为 AWS Community Builder,我喜欢通过自己的经验和活动分享所学,并帮助他人在道路上前行。如果您觉得这有帮助或有任何问题,请随时联系我!🚀

参考文献

活动: AWS User Group Chennai Meetup
主题: 使用 AWS Glue 数据质量实现可靠数据
日期: 2025年9月27日

也发布于

Back to Blog

相关文章

阅读更多 »