ML 系统:他们在图中跳过的部分

发布: (2025年12月30日 GMT+8 12:15)
9 min read
原文: Dev.to

Source: Dev.to

生产机器学习的未言现实

“这个经典的 meme,凭借其极简的形式,解释了组织中机器学习系统的方方面面,胜过大多数你能在网上找到的文章。”

表面上,教程承诺提供一条整洁的、一步步的旅程:

  1. 定义目标
  2. 对齐成功指标
  3. 收集数据
  4. 训练致胜模型
  5. …“画出猫头鹰的其余部分。”

关于最难的那一步的指引在哪里?

1. 缺失的环节不是技术问题——而是情境问题

人类介入 时,一切都会改变。
每一个真实的机器学习系统都始于:

  • 一个电子表格,
  • 一个 Slack 讨论串,
  • 以及不可避免的问题:“如果结果看起来不对,我们能否手动覆盖?”

美妙之处不在于公司不能构建模型——它们完全可以。
挑战在于这些模型必须在 从未为处理概率性、不确定决策而设计的组织内部 运作。

2. 为何现成框架很少合适

大多数预构建的机器学习框架默认:

  • 目标稳定
  • 反馈回路干净
  • 成功表现为收敛的指标

真实的业务很少满足这些假设:

现实情况框架假设
优先级在季度中途发生变化目标保持不变
各利益相关者的激励会变化激励是静态的
信号可能不完整、延迟或误导信号干净且即时

失败很少是因为模型本身错误——而是因为模型 与实际决策方式不匹配

3. 具体示例

“设想一下:你正在构建一个定价系统、需求预测或排序算法。”

互联网的机器学习“圣经”会告诉你:

  1. 定义目标
  2. 收集数据
  3. 训练
  4. 离线验证
  5. 部署
  6. 迭代

干净、可复现、令人安心。

但当系统面对现实,裂痕便出现:

  • 定价经理会覆盖价格
  • 促销活动会扭曲需求
  • 领导层会在一夜之间把目标从收入改为利润

框架并不是因为技术缺陷而崩溃;它崩溃是因为它 假设了几乎不存在的组织清晰度

4. 数学 vs. 决策所有权

  • 数学很少是瓶颈
  • 决策所有权才是瓶颈

在成熟的组织中,生成预测、评分或推荐 在技术上是可解的——往往已经“足够好”。
更难的部分是 在模型输出与以下因素冲突时,谁来承担责任

  • 人类判断
  • 传统流程
  • 变化的业务激励

当预测与商家的直觉相悖、定价建议冲击短期目标,或排序变化惹恼关键客户时,系统会滑入 组织灰色地带。决策会被:

  • 延后
  • 覆盖
  • 有选择地执行(常常不记录)

5. 真正的失败模式

“这不是技术故障,而是结构性问题。”

没有任何教程会说明:

  • 谁有权信任模型?
  • 当模型出错时,谁承担成本?
  • 异常如何在系统中传播?

如果没有对该决策环路的明确所有权, 准确率就会沦为虚荣指标——可被优化、可被辩护,却与实际结果基本脱节。

6. 前进之路:在预测与行动之间建立清晰接口

  1. 定义决策权——谁可以对推荐采取行动?
  2. 使覆盖可审计——记录 为何何时 进行覆盖。
  3. 把人为干预视为信号,而非噪声——将其反馈回模型。

生产机器学习本质上是社会技术系统。

预测与激励、信任、问责和判断相互作用。忽视或仅部分记录人类行为 会扭曲费用流向,削弱系统的整体效能。

Source:

dback loop,导致系统学习到扭曲的现实版本。

7. 为什么大多数机器学习系统在会议中失败,而不是在推理阶段

  • 领导者要求确定性 → 机器学习提供的是概率。
  • 中层为了可预测性进行优化 → 机器学习引入了方差。

每一层都在其激励机制下理性行事,但它们共同创造了一个 概率系统难以生存 的环境。

模型可能在统计上是可靠的,却 进入了一个奖励自信而非校准不确定性的组织

8. 底线

  • 生产环境的失败很少源于数据漂移或模型衰减。
  • 真正的摩擦出现在 更早的阶段:当 70 % 的置信度分数遇到要求是非答案的文化时。
  • 当一个推荐挑战已经向上层宣传的计划,或责任分散而指责立即到来时,机器学习 只有在确认直觉时才被容忍,一旦它使决策变得复杂就会被悄然 sidelined(边缘化)。

组织并没有明确拒绝模型;它让模型变得无关紧要。

生产中的机器学习系统 不必 替代决策才能有价值;它的角色往往是 移动决策边界。如果在引入模型后没有任何变化——没有阈值、没有默认值、没有升级路径——那么系统 实际上并不存在,不论建模多么先进。

许多失败悄然开始,前提是“更好的预测”会神奇地解决更深层的社会技术错位。

9. 指导原则

  1. 从决策开始。
  2. 定义可容忍的错误。
  3. 规划覆盖(override)机制。
  4. 在优化准确率之前衡量信任。

这些不是可选项;它们是系统能够在现实中生存的基石。必须预先接受组织动态、激励机制和人类行为会迫使妥协——并且要与之共设计,而不是对抗。

10. 结束语

真实世界的机器学习系统并不是由架构图、模型选择或算法复杂度定义——我们有成千上万的这些。它们是由它们所支撑的决策、塑造行为的激励以及与结果共存的人类定义的。模型只是其中的一个组件;只有当预测、行动和问责形成连贯循环时,系统才会工作。

在我们为这种现实进行设计之前,我们只会不断交付能运行的模型,却交付不了真正有效的系统。

当我们接受这种视角时,机器学习不再是纯技术的练习,而是一个 决策支持生态系统

  • 概率化却值得信赖,
  • 灵活却可审计,
  • 复杂却与人类判断保持一致。

这才是既能运行又能持久的框架。

Back to Blog

相关文章

阅读更多 »