为什么企业AI在缺乏不确定性意识时会失败

发布: (2026年2月5日 GMT+8 10:12)
4 min read
原文: Dev.to

Source: Dev.to

我不断看到的模式

在 SAP 和企业系统工作了 25 年后,我目睹了 AI 浪潮冲击企业运营。我一直看到同样的失败模式:

  • 团队构建一个机器学习模型来自动化工作流(发票匹配、审批路由、异常检测)
  • 模型在测试中达到 92% 的准确率
  • 团队将其部署到生产环境
  • 那 8% 的错误导致昂贵的下游问题
  • 信任 evaporates。模型被搁置。

听起来熟悉吗?

缺失的环节:知道自己不知道什么

解决方案不是更好的模型,而是 不确定性量化

不要只问“模型预测什么?”,而要问 “模型对这个预测有多自信?”

# Instead of this:
prediction = model.predict(invoice_data)
process(prediction)  # Hope for the best

# Do this:
prediction, confidence = model.predict_with_uncertainty(invoice_data)

if confidence > 0.95:
    auto_process(prediction)       # High confidence -> automate
elif confidence > 0.80:
    flag_for_review(prediction)    # Medium -> human review
else:
    escalate(prediction)           # Low -> full human decision

但是等一下——95% 的置信度真的等于 95% 的准确率吗?

这正是大多数团队停下来的地方。第二个关键问题是:模型的置信度是否已校准?

一个说“95% 自信”却只有 70% 正确率的模型,比一个说“70% 自信”且 70% 正确率的模型更糟。前者在骗你。

校准 衡量声明的置信度是否与实际准确率相匹配。对应的指标叫做期望校准误差(Expected Calibration Error,ECE),你希望它接近零。

// Simplified calibration check
function checkCalibration(predictions) {
  const buckets = groupByConfidence(predictions, 10);

  let ece = 0;
  for (const bucket of buckets) {
    const avgConfidence = mean(bucket.map(p => p.confidence));
    const actualAccuracy = mean(bucket.map(p => p.wasCorrect ? 1 : 0));
    ece += bucket.length * Math.abs(avgConfidence - actualAccuracy);
  }

  return {
    ece: ece / predictions.length,
    reliable: ece / predictions.length < 0.05
  };
}

实际影响:SAP 流程挖掘

当你将流程挖掘与预测模型结合时,可以:

  • 预测 哪些采购订单会延迟(以及延迟多少)
  • 识别 哪些流程变体会导致返工
  • 标记 可能未通过合规检查的交易

但只有在你知道何时可信的情况下,这些预测才有价值。

在一个包含 150,000+ 案例的数据集上,具备不确定性意识的治理相比静态规则将决策质量提升了 250%。数据造就更好的模型,模型产生更好的不确定性估计,而这些估计又推动更多自动化——形成良性循环。

给企业团队的要点

  • 不要只追求准确率。 一个校准良好的 85% 模型比一个过度自信的 92% 模型更有价值。
  • 构建分层决策路径。 高置信度 → 自动化;中等 → 人工审查;低 → 升级。
  • 持续监控校准。 模型会漂移,置信度阈值也必须随之漂移。
  • 从流程挖掘开始。 SAP 系统中的事件日志是训练真正了解业务模型的金矿。

真正从企业 AI 中获得价值的组织,并不是拥有最花哨模型的组织——而是那些知道何时模型不知道的组织。

Back to Blog

相关文章

阅读更多 »