ML 系统：他们在图中跳过的部分

发布: 3天前 (2025年12月30日 GMT+8 12:15)

9 min read

原文: Dev.to

Source: Dev.to

生产机器学习的未言现实

“这个经典的 meme，凭借其极简的形式，解释了组织中机器学习系统的方方面面，胜过大多数你能在网上找到的文章。”

表面上，教程承诺提供一条整洁的、一步步的旅程：

定义目标
对齐成功指标
收集数据
训练致胜模型
…“画出猫头鹰的其余部分。”

关于最难的那一步的指引在哪里？

1. 缺失的环节不是技术问题——而是情境问题

当 人类介入 时，一切都会改变。
每一个真实的机器学习系统都始于：

一个电子表格，
一个 Slack 讨论串，
以及不可避免的问题：“如果结果看起来不对，我们能否手动覆盖？”

美妙之处不在于公司不能构建模型——它们完全可以。
挑战在于这些模型必须在 从未为处理概率性、不确定决策而设计的组织内部 运作。

2. 为何现成框架很少合适

大多数预构建的机器学习框架默认：

目标稳定
反馈回路干净
成功表现为收敛的指标

真实的业务很少满足这些假设：

现实情况	框架假设
优先级在季度中途发生变化	目标保持不变
各利益相关者的激励会变化	激励是静态的
信号可能不完整、延迟或误导	信号干净且即时

失败很少是因为模型本身错误——而是因为模型 与实际决策方式不匹配。

3. 具体示例

“设想一下：你正在构建一个定价系统、需求预测或排序算法。”

互联网的机器学习“圣经”会告诉你：

定义目标
收集数据
训练
离线验证
部署
迭代

干净、可复现、令人安心。

但当系统面对现实，裂痕便出现：

定价经理会覆盖价格
促销活动会扭曲需求
领导层会在一夜之间把目标从收入改为利润

框架并不是因为技术缺陷而崩溃；它崩溃是因为它 假设了几乎不存在的组织清晰度。

4. 数学 vs. 决策所有权

数学很少是瓶颈。
决策所有权才是瓶颈。

在成熟的组织中，生成预测、评分或推荐 在技术上是可解的——往往已经“足够好”。
更难的部分是 在模型输出与以下因素冲突时，谁来承担责任：

人类判断
传统流程
变化的业务激励

当预测与商家的直觉相悖、定价建议冲击短期目标，或排序变化惹恼关键客户时，系统会滑入 组织灰色地带。决策会被：

延后
覆盖
有选择地执行（常常不记录）

5. 真正的失败模式

“这不是技术故障，而是结构性问题。”

没有任何教程会说明：

谁有权信任模型？
当模型出错时，谁承担成本？
异常如何在系统中传播？

如果没有对该决策环路的明确所有权， 准确率就会沦为虚荣指标——可被优化、可被辩护，却与实际结果基本脱节。

6. 前进之路：在预测与行动之间建立清晰接口

定义决策权——谁可以对推荐采取行动？
使覆盖可审计——记录谁、为何、何时进行覆盖。
把人为干预视为信号，而非噪声——将其反馈回模型。

生产机器学习本质上是社会技术系统。

预测与激励、信任、问责和判断相互作用。忽视或仅部分记录人类行为 会扭曲费用流向，削弱系统的整体效能。

Source: …

dback loop，导致系统学习到扭曲的现实版本。

7. 为什么大多数机器学习系统在会议中失败，而不是在推理阶段

领导者要求确定性 → 机器学习提供的是概率。
中层为了可预测性进行优化 → 机器学习引入了方差。

每一层都在其激励机制下理性行事，但它们共同创造了一个 概率系统难以生存 的环境。

模型可能在统计上是可靠的，却 进入了一个奖励自信而非校准不确定性的组织。

8. 底线

生产环境的失败很少源于数据漂移或模型衰减。
真正的摩擦出现在 更早的阶段：当 70 % 的置信度分数遇到要求是非答案的文化时。
当一个推荐挑战已经向上层宣传的计划，或责任分散而指责立即到来时，机器学习 只有在确认直觉时才被容忍，一旦它使决策变得复杂就会被悄然 sidelined（边缘化）。

组织并没有明确拒绝模型；它让模型变得无关紧要。

生产中的机器学习系统不必替代决策才能有价值；它的角色往往是 移动决策边界。如果在引入模型后没有任何变化——没有阈值、没有默认值、没有升级路径——那么系统 实际上并不存在，不论建模多么先进。

许多失败悄然开始，前提是“更好的预测”会神奇地解决更深层的社会技术错位。

9. 指导原则

从决策开始。
定义可容忍的错误。
规划覆盖（override）机制。
在优化准确率之前衡量信任。

这些不是可选项；它们是系统能够在现实中生存的基石。必须预先接受组织动态、激励机制和人类行为会迫使妥协——并且要与之共设计，而不是对抗。

10. 结束语

真实世界的机器学习系统并不是由架构图、模型选择或算法复杂度定义——我们有成千上万的这些。它们是由它们所支撑的决策、塑造行为的激励以及与结果共存的人类定义的。模型只是其中的一个组件；只有当预测、行动和问责形成连贯循环时，系统才会工作。

在我们为这种现实进行设计之前，我们只会不断交付能运行的模型，却交付不了真正有效的系统。

当我们接受这种视角时，机器学习不再是纯技术的练习，而是一个 决策支持生态系统：

概率化却值得信赖，
灵活却可审计，
复杂却与人类判断保持一致。

这才是既能运行又能持久的框架。