‘last-mile’ 数据问题正在拖慢企业 agentic AI —— ‘golden pipelines’ 旨在解决它
Source: VentureBeat
传统 ETL 与 AI 驱动的数据准备
传统 ETL 工具如 dbt 或 Fivetran 用于为报告准备数据:结构化的分析和仪表盘,拥有稳定的模式。
AI 应用需要不同的方式——为实时模型推理准备杂乱、不断演变的运营数据。
Empromptu 将这种区别称为 “推理完整性” 与 “报告完整性”。
它不把数据准备视为独立学科,而是通过 黄金管道 将规范化直接集成到 AI 应用工作流中,将通常需要 14 天的手动工程 压缩到 不到一小时。公司表示,这加速了数据准备并确保了数据准确性。
谁在使用 Empromptu?
- 中小型和大型企业客户,所在行业受监管,数据准确性和合规性不可妥协。
- 金融科技 —— 增长最快的垂直领域。
- 还有 医疗保健 与 法律科技 领域的客户。
- 平台 符合 HIPAA 并 通过 SOC 2 认证。
“企业 AI 并不是在模型层面崩溃,而是当杂乱的数据遇到真实用户时出现问题,”
— Shanea Leven,Empromptu 首席执行官兼联合创始人(VentureBeat 访谈)
“黄金管道将数据摄取、准备和治理直接嵌入 AI 应用工作流,使团队能够构建真正能在生产环境中运行的系统。”
Golden Pipelines 的工作原理
Golden pipelines 作为一个 自动化层,位于原始运营数据和 AI 应用特性之间。
核心功能
- 摄取 – 从任何来源获取数据(文件、数据库、API、非结构化文档)。
- 检查与清洗 – 自动化质量检查和错误纠正。
- 结构化 – 对原始数据应用模式定义。
- 标注与丰富 – 填补空白、对记录进行分类、添加元数据。
- 治理与合规 – 审计日志、访问控制、隐私执行。
技术方法
- 确定性预处理 与 AI 辅助归一化 相结合。
- 系统不对每个转换进行硬编码,而是:
- 识别不一致之处。
- 推断缺失的结构。
- 基于模型上下文生成分类。
- 每一次转换都 记录日志,并直接关联到下游 AI 评估。
评估循环
- 持续监控 下游准确性。
- 如果归一化导致模型性能下降,系统会通过生产行为评估 捕获 这一情况。
- 数据准备与模型性能之间的反馈耦合 使 golden pipelines 与传统 ETL 工具 区别开来。
集成
- 嵌入在 Empromptu Builder 中,并在创建 AI 应用时自动运行。
- 从用户的视角来看,团队构建 AI 特性;在幕后,golden pipelines 确保供给这些特性的数据 干净、结构化、受治理且可直接用于生产。
报告完整性 vs. 推理完整性
| 方面 | 传统 ETL(例如 dbt、Fivetran) | Golden Pipelines |
|---|---|---|
| 主要目标 | 报告完整性 – 稳定、结构化的数据用于分析。 | 推理完整性 – 为 AI 模型推理提供可靠的数据。 |
| 假设 | 模式稳定、已知转换、静态逻辑。 | 混乱、不断演进的运营数据;需要动态规范化。 |
| 使用场景 | 仓库完整性、结构化报告。 | 最后一步问题:将不完美的运营数据转化为 AI 可用特征。 |
| 替代? | 否 – 企业仍会使用传统 ETL 进行报告。 | 互补,而非取代现有的 ETL 堆栈。 |
“这并非无监督的魔法。它是可审查、可审计的,并且持续针对生产行为进行评估,”Leven 补充道。“如果规范化降低了下游的准确性,评估循环会捕捉到。数据准备与模型性能之间的反馈耦合是传统 ETL 流水线所不具备的。”
客户部署:VOW应对高风险活动数据
VOW – 一个为 GLAAD 以及多家体育组织等高调活动提供管理的平台。
- 挑战: 赞助商邀请、票务购买、桌位、座位等数据复杂且变化快速。数据一致性必须得到保证。
- 之前的流程: 手动正则表达式脚本。
- 目标: 构建一个 AI 生成的平面图功能,能够实现近实时的数据更新。
“我们的数据比普通平台要复杂得多,” VOW 首席执行官 Jennifer Brisman 说道。
解决方案
- Golden Pipelines 自动从凌乱的、非结构化的平面图数据中提取信息。
- 对数据进行格式化并交付,几乎无需大量人工操作。
- 实现了 连 Google 与 Amazon 的 AI 团队都无法解决的 AI 生成平面图分析。
结果: VOW 正在 使用 Empromptu 系统重写其整个平台。
对企业 AI 部署的意义
Golden pipelines 目标的部署模式是:组织在原型与生产之间,数据准备成为手动瓶颈的集成 AI 应用。
- 理想适配场景: 缺乏成熟数据工程团队,或仅有临时 ETL 流水线的团队。
- 不太适合的场景: 已经拥有成熟、领域特定的 ETL 流程以及完善数据工程职能的公司。
在这种环境下,golden pipelines 可以显著缩短投产时间,提升数据可信度,并确保数据准备与模型性能的持续对齐。
独立 AI 模型 vs. 集成应用
决策点在于 数据准备 是否阻碍了组织的 AI 速度。
- 如果数据科学家为实验准备数据集,而工程团队随后从头重新构建用于生产,集成数据准备 可以弥补这一差距。
- 如果瓶颈出现在 AI 开发生命周期的其他环节,则此举无济于事。
权衡:平台集成 vs. 工具灵活性
| 方法 | 好处 | 成本 |
|---|---|---|
| 黄金流水线(集成平台) | • 消除数据准备与应用开发之间的交接。 • 提供统一的治理和一致的工具链。 | • 减少功能实现方式的可选性。 • 限制在每个阶段挑选最佳工具的能力。 |
| 最佳组合工具链(组装式) | • 允许团队为每个功能选择最合适的工具。 • 提供更大的灵活性和定制化。 | • 增加交接和协调工作量。 • 可能带来治理和兼容性挑战。 |
结论: 当数据准备是主要瓶颈且你重视流程顺畅时,选择集成平台。若灵活性和专用能力的价值超过管理多次交接的开销,则选择最佳组合工具链。