‘last-mile’ 数据问题正在拖慢企业 agentic AI —— ‘golden pipelines’ 旨在解决它

发布: (2026年2月19日 GMT+8 21:00)
9 分钟阅读

Source: VentureBeat

传统 ETL 与 AI 驱动的数据准备

传统 ETL 工具如 dbtFivetran 用于为报告准备数据:结构化的分析和仪表盘,拥有稳定的模式。
AI 应用需要不同的方式——为实时模型推理准备杂乱、不断演变的运营数据。

Empromptu 将这种区别称为 “推理完整性”“报告完整性”。
它不把数据准备视为独立学科,而是通过 黄金管道 将规范化直接集成到 AI 应用工作流中,将通常需要 14 天的手动工程 压缩到 不到一小时。公司表示,这加速了数据准备并确保了数据准确性。

谁在使用 Empromptu?

  • 中小型和大型企业客户,所在行业受监管,数据准确性和合规性不可妥协。
  • 金融科技 —— 增长最快的垂直领域。
  • 还有 医疗保健法律科技 领域的客户。
  • 平台 符合 HIPAA通过 SOC 2 认证

“企业 AI 并不是在模型层面崩溃,而是当杂乱的数据遇到真实用户时出现问题,”
Shanea Leven,Empromptu 首席执行官兼联合创始人(VentureBeat 访谈)

“黄金管道将数据摄取、准备和治理直接嵌入 AI 应用工作流,使团队能够构建真正能在生产环境中运行的系统。”

Golden Pipelines 的工作原理

Golden pipelines 作为一个 自动化层,位于原始运营数据和 AI 应用特性之间。

核心功能

  1. 摄取 – 从任何来源获取数据(文件、数据库、API、非结构化文档)。
  2. 检查与清洗 – 自动化质量检查和错误纠正。
  3. 结构化 – 对原始数据应用模式定义。
  4. 标注与丰富 – 填补空白、对记录进行分类、添加元数据。
  5. 治理与合规 – 审计日志、访问控制、隐私执行。

技术方法

  • 确定性预处理AI 辅助归一化 相结合。
  • 系统不对每个转换进行硬编码,而是:
    • 识别不一致之处。
    • 推断缺失的结构。
    • 基于模型上下文生成分类。
  • 每一次转换都 记录日志,并直接关联到下游 AI 评估。

评估循环

  • 持续监控 下游准确性
  • 如果归一化导致模型性能下降,系统会通过生产行为评估 捕获 这一情况。
  • 数据准备与模型性能之间的反馈耦合 使 golden pipelines 与传统 ETL 工具 区别开来

集成

  • 嵌入在 Empromptu Builder 中,并在创建 AI 应用时自动运行。
  • 从用户的视角来看,团队构建 AI 特性;在幕后,golden pipelines 确保供给这些特性的数据 干净、结构化、受治理且可直接用于生产

报告完整性 vs. 推理完整性

方面传统 ETL(例如 dbt、Fivetran)Golden Pipelines
主要目标报告完整性 – 稳定、结构化的数据用于分析。推理完整性 – 为 AI 模型推理提供可靠的数据。
假设模式稳定、已知转换、静态逻辑。混乱、不断演进的运营数据;需要动态规范化。
使用场景仓库完整性、结构化报告。最后一步问题:将不完美的运营数据转化为 AI 可用特征。
替代?否 – 企业仍会使用传统 ETL 进行报告。互补,而非取代现有的 ETL 堆栈。

“这并非无监督的魔法。它是可审查、可审计的,并且持续针对生产行为进行评估,”Leven 补充道。“如果规范化降低了下游的准确性,评估循环会捕捉到。数据准备与模型性能之间的反馈耦合是传统 ETL 流水线所不具备的。”

客户部署:VOW应对高风险活动数据

VOW – 一个为 GLAAD 以及多家体育组织等高调活动提供管理的平台。

  • 挑战: 赞助商邀请、票务购买、桌位、座位等数据复杂且变化快速。数据一致性必须得到保证。
  • 之前的流程: 手动正则表达式脚本。
  • 目标: 构建一个 AI 生成的平面图功能,能够实现近实时的数据更新。

“我们的数据比普通平台要复杂得多,” VOW 首席执行官 Jennifer Brisman 说道。

解决方案

  • Golden Pipelines 自动从凌乱的、非结构化的平面图数据中提取信息。
  • 对数据进行格式化并交付,几乎无需大量人工操作。
  • 实现了 连 Google 与 Amazon 的 AI 团队都无法解决的 AI 生成平面图分析。

结果: VOW 正在 使用 Empromptu 系统重写其整个平台

对企业 AI 部署的意义

Golden pipelines 目标的部署模式是:组织在原型与生产之间,数据准备成为手动瓶颈的集成 AI 应用

  • 理想适配场景: 缺乏成熟数据工程团队,或仅有临时 ETL 流水线的团队。
  • 不太适合的场景: 已经拥有成熟、领域特定的 ETL 流程以及完善数据工程职能的公司。

在这种环境下,golden pipelines 可以显著缩短投产时间,提升数据可信度,并确保数据准备与模型性能的持续对齐

独立 AI 模型 vs. 集成应用

决策点在于 数据准备 是否阻碍了组织的 AI 速度。

  • 如果数据科学家为实验准备数据集,而工程团队随后从头重新构建用于生产,集成数据准备 可以弥补这一差距。
  • 如果瓶颈出现在 AI 开发生命周期的其他环节,则此举无济于事。

权衡:平台集成 vs. 工具灵活性

方法好处成本
黄金流水线(集成平台)• 消除数据准备与应用开发之间的交接。
• 提供统一的治理和一致的工具链。
• 减少功能实现方式的可选性。
• 限制在每个阶段挑选最佳工具的能力。
最佳组合工具链(组装式)• 允许团队为每个功能选择最合适的工具。
• 提供更大的灵活性和定制化。
• 增加交接和协调工作量。
• 可能带来治理和兼容性挑战。

结论: 当数据准备是主要瓶颈且你重视流程顺畅时,选择集成平台。若灵活性和专用能力的价值超过管理多次交接的开销,则选择最佳组合工具链。

0 浏览
Back to Blog

相关文章

阅读更多 »

我不想归还的9,000磅怪物

在上周末前往塔霍旅行之前,GM 为我提供了公司那座重达9,000磅的奢华象征——全新2026电动Escalade IQL。

Kakao 首次公开多模态 AI ‘카나나‑o’ API,扩大应用

Kakao 多模态 AI ‘Kanana‑o’ API 首次公开。Kakao 将首次公开其自主研发的多模态 AI 模型的应用程序编程接口(API)。虽然已经以开源形式公布了模型,但此次是为了通过实际使用并实现功能的案例,推动 Kanana 模型大众化的首次尝试。闭源…