为什么企业AI在缺乏不确定性意识时会失败
Source: Dev.to
我不断看到的模式
在 SAP 和企业系统工作了 25 年后,我目睹了 AI 浪潮冲击企业运营。我一直看到同样的失败模式:
- 团队构建一个机器学习模型来自动化工作流(发票匹配、审批路由、异常检测)
- 模型在测试中达到 92% 的准确率
- 团队将其部署到生产环境
- 那 8% 的错误导致昂贵的下游问题
- 信任 evaporates。模型被搁置。
听起来熟悉吗?
缺失的环节:知道自己不知道什么
解决方案不是更好的模型,而是 不确定性量化。
不要只问“模型预测什么?”,而要问 “模型对这个预测有多自信?”
# Instead of this:
prediction = model.predict(invoice_data)
process(prediction) # Hope for the best
# Do this:
prediction, confidence = model.predict_with_uncertainty(invoice_data)
if confidence > 0.95:
auto_process(prediction) # High confidence -> automate
elif confidence > 0.80:
flag_for_review(prediction) # Medium -> human review
else:
escalate(prediction) # Low -> full human decision
但是等一下——95% 的置信度真的等于 95% 的准确率吗?
这正是大多数团队停下来的地方。第二个关键问题是:模型的置信度是否已校准?
一个说“95% 自信”却只有 70% 正确率的模型,比一个说“70% 自信”且 70% 正确率的模型更糟。前者在骗你。
校准 衡量声明的置信度是否与实际准确率相匹配。对应的指标叫做期望校准误差(Expected Calibration Error,ECE),你希望它接近零。
// Simplified calibration check
function checkCalibration(predictions) {
const buckets = groupByConfidence(predictions, 10);
let ece = 0;
for (const bucket of buckets) {
const avgConfidence = mean(bucket.map(p => p.confidence));
const actualAccuracy = mean(bucket.map(p => p.wasCorrect ? 1 : 0));
ece += bucket.length * Math.abs(avgConfidence - actualAccuracy);
}
return {
ece: ece / predictions.length,
reliable: ece / predictions.length < 0.05
};
}
实际影响:SAP 流程挖掘
当你将流程挖掘与预测模型结合时,可以:
- 预测 哪些采购订单会延迟(以及延迟多少)
- 识别 哪些流程变体会导致返工
- 标记 可能未通过合规检查的交易
但只有在你知道何时可信的情况下,这些预测才有价值。
在一个包含 150,000+ 案例的数据集上,具备不确定性意识的治理相比静态规则将决策质量提升了 250%。数据造就更好的模型,模型产生更好的不确定性估计,而这些估计又推动更多自动化——形成良性循环。
给企业团队的要点
- 不要只追求准确率。 一个校准良好的 85% 模型比一个过度自信的 92% 模型更有价值。
- 构建分层决策路径。 高置信度 → 自动化;中等 → 人工审查;低 → 升级。
- 持续监控校准。 模型会漂移,置信度阈值也必须随之漂移。
- 从流程挖掘开始。 SAP 系统中的事件日志是训练真正了解业务模型的金矿。
真正从企业 AI 中获得价值的组织,并不是拥有最花哨模型的组织——而是那些知道何时模型不知道的组织。