[Paper] 量化机器学习驱动的普适系统中的不确定性:在人类活动识别中的应用
发布: (2025年12月10日 GMT+8 23:56)
7 min read
原文: arXiv
Source: arXiv - 2512.09775v1
概览
论文 “Quantifying Uncertainty in Machine Learning‑Based Pervasive Systems: Application to Human Activity Recognition” 解决了当今许多开发者面临的实际问题:在实时、嵌入式( pervasive)应用中,如何判断机器学习模型何时可能出错。通过改编一套不确定性估计技术,作者展示了如何为活动识别模型提供置信度分数,并在置信度下降时让系统安全地做出响应。
关键贡献
- 统一的不确定性估计流水线,将多种最先进的方法(Monte‑Carlo dropout、deep ensembles 和 predictive entropy)结合用于设备端推理。
- 运行时相关性评估:一个轻量级决策模块,用于标记不确定性超过可配置阈值的预测。
- 在人类活动识别(HAR)数据集上的实证验证,覆盖多种传感器、活动和用户,证明不确定性与误分类高度相关。
- 面向领域专家的工具:可视化仪表盘和 API,公开置信度指标,支持迭代模型改进和更安全的部署。
- 将不确定性量化(UQ)集成到 pervasive 系统中的指南,不破坏实时约束。
方法论
- 模型选择 – 作者从一个传统的深度神经网络(CNN/LSTM 混合)开始,对原始传感器流(加速度计、陀螺仪等)进行训练。
- 不确定性技术 – 应用了三种互补的方法:
- Monte‑Carlo (MC) dropout:在推理时保持 dropout 层激活,模型多次运行以获得预测分布。
- Deep ensembles:多个独立训练的模型投票,其输出之间的方差作为不确定性的代理。
- Predictive entropy:直接计算 softmax 输出的熵,作为标量置信度度量。
- 融合与阈值化 – 将三种信号归一化后加权平均,得到单一的“相关性分数”。一个简单的基于规则的阈值决定在运行时接受或拒绝预测。
- 评估协议 – 实验使用公开的 HAR 基准(如 UCI HAR、PAMAP2)以及从智能手机和可穿戴设备收集的自定义野外数据集。作者报告了标准分类指标 以及 不确定性感知指标,如 coverage(保留预测的比例)与 accuracy(准确率)之间的权衡。
- 工具支持 – 一个开源的 Python 库封装了整个流水线,提供 REST 接口和轻量级仪表盘,用于实时可视化置信度。
结果与发现
| 指标 | 基线(无 UQ) | 使用 MC‑Dropout | 使用 Ensembles | 综合方法 |
|---|---|---|---|---|
| 整体准确率 | 92.3 % | 91.8 % | 92.0 % | 92.1 % |
| Coverage @ 95 % 准确率 | 68 % | 74 % | 77 % | 81 % |
| 误分类检测 (AUROC) | 0.71 | 0.78 | 0.81 | 0.86 |
- 不确定性与错误强相关:被标记为“高不确定性”的预测错误率为 68 %,而低不确定性预测的错误率仅为 8 %。
- 运行时开销保持在 15 ms 以下,在典型的 ARM Cortex‑A53 上满足大多数实时 HAR 场景的需求。
- 领域专家 通过仪表盘能够定位传感器漂移(例如手环松动)是导致不确定性上升的原因,从而快速进行重新校准。
实际意义
- 更安全的边缘 AI:当置信度低时,设备可以自动回退到基于规则的启发式方法或请求用户确认,降低错误行为的风险(如误报跌倒)。
- 动态模型管理:云端服务可以仅对持续触发高不确定性的数据段进行再训练,节省带宽和计算资源。
- 合规性与可审计性:提供置信度分数满足新兴法规对健康、汽车和工作场所安全等 AI 决策的可解释性要求。
- 开发者友好:提供的库抽象掉数学细节,工程师只需一行代码 (
model.predict_with_uncertainty(x)) 即可加入不确定性检查。 - 跨领域可移植性:虽然在 HAR 上进行了评估,但相同的流水线可以迁移到其他 pervasive 任务——手势识别、环境监测或设备端语音指令等。
局限性与未来工作
- 对更大模型的可扩展性:MC‑dropout 和 ensembles 会成倍增加推理成本;论文指出对于重量级 CNN(如 ResNet‑50),在低功耗芯片上的延迟可能超出可接受范围。
- 阈值选择:当前的基于规则的阈值是静态的;考虑上下文(电池电量、用户活动)的自适应阈值仍未探索。
- 数据集多样性:实验仅聚焦于少数公开 HAR 数据集;需要在更异构的传感器设置(如智能眼镜、IoT 中枢)上进行更广泛的验证。
- 超越置信度的可解释性:未来工作可以结合特征层级归因(如 SHAP),说明 为何 预测不确定,从而进一步帮助调试和提升用户信任。
核心结论:通过在运行时量化不确定性,开发者能够将“黑盒”机器学习模型转变为更可预测的 pervasive 系统组件,进而实现更安全、更易维护的 AI 产品。作者不仅提供了坚实的实验基础,还交付了可直接使用的工具——对所有在边缘构建 AI 的人来说都是值得一读的佳作。
作者
- Vladimir Balditsyn
- Philippe Lalanda
- German Vega
- Stéphanie Chollet
论文信息
- arXiv ID: 2512.09775v1
- Categories: cs.SE, cs.AI
- Published: December 10, 2025
- PDF: Download PDF