[Paper] 量化机器学习驱动的普适系统中的不确定性:在人类活动识别中的应用

发布: (2025年12月10日 GMT+8 23:56)
7 min read
原文: arXiv

Source: arXiv - 2512.09775v1

概览

论文 “Quantifying Uncertainty in Machine Learning‑Based Pervasive Systems: Application to Human Activity Recognition” 解决了当今许多开发者面临的实际问题:在实时、嵌入式( pervasive)应用中,如何判断机器学习模型何时可能出错。通过改编一套不确定性估计技术,作者展示了如何为活动识别模型提供置信度分数,并在置信度下降时让系统安全地做出响应。

关键贡献

  • 统一的不确定性估计流水线,将多种最先进的方法(Monte‑Carlo dropout、deep ensembles 和 predictive entropy)结合用于设备端推理。
  • 运行时相关性评估:一个轻量级决策模块,用于标记不确定性超过可配置阈值的预测。
  • 在人类活动识别(HAR)数据集上的实证验证,覆盖多种传感器、活动和用户,证明不确定性与误分类高度相关。
  • 面向领域专家的工具:可视化仪表盘和 API,公开置信度指标,支持迭代模型改进和更安全的部署。
  • 将不确定性量化(UQ)集成到 pervasive 系统中的指南,不破坏实时约束。

方法论

  1. 模型选择 – 作者从一个传统的深度神经网络(CNN/LSTM 混合)开始,对原始传感器流(加速度计、陀螺仪等)进行训练。
  2. 不确定性技术 – 应用了三种互补的方法:
    • Monte‑Carlo (MC) dropout:在推理时保持 dropout 层激活,模型多次运行以获得预测分布。
    • Deep ensembles:多个独立训练的模型投票,其输出之间的方差作为不确定性的代理。
    • Predictive entropy:直接计算 softmax 输出的熵,作为标量置信度度量。
  3. 融合与阈值化 – 将三种信号归一化后加权平均,得到单一的“相关性分数”。一个简单的基于规则的阈值决定在运行时接受或拒绝预测。
  4. 评估协议 – 实验使用公开的 HAR 基准(如 UCI HAR、PAMAP2)以及从智能手机和可穿戴设备收集的自定义野外数据集。作者报告了标准分类指标 以及 不确定性感知指标,如 coverage(保留预测的比例)与 accuracy(准确率)之间的权衡。
  5. 工具支持 – 一个开源的 Python 库封装了整个流水线,提供 REST 接口和轻量级仪表盘,用于实时可视化置信度。

结果与发现

指标基线(无 UQ)使用 MC‑Dropout使用 Ensembles综合方法
整体准确率92.3 %91.8 %92.0 %92.1 %
Coverage @ 95 % 准确率68 %74 %77 %81 %
误分类检测 (AUROC)0.710.780.810.86
  • 不确定性与错误强相关:被标记为“高不确定性”的预测错误率为 68 %,而低不确定性预测的错误率仅为 8 %。
  • 运行时开销保持在 15 ms 以下,在典型的 ARM Cortex‑A53 上满足大多数实时 HAR 场景的需求。
  • 领域专家 通过仪表盘能够定位传感器漂移(例如手环松动)是导致不确定性上升的原因,从而快速进行重新校准。

实际意义

  • 更安全的边缘 AI:当置信度低时,设备可以自动回退到基于规则的启发式方法或请求用户确认,降低错误行为的风险(如误报跌倒)。
  • 动态模型管理:云端服务可以仅对持续触发高不确定性的数据段进行再训练,节省带宽和计算资源。
  • 合规性与可审计性:提供置信度分数满足新兴法规对健康、汽车和工作场所安全等 AI 决策的可解释性要求。
  • 开发者友好:提供的库抽象掉数学细节,工程师只需一行代码 (model.predict_with_uncertainty(x)) 即可加入不确定性检查。
  • 跨领域可移植性:虽然在 HAR 上进行了评估,但相同的流水线可以迁移到其他 pervasive 任务——手势识别、环境监测或设备端语音指令等。

局限性与未来工作

  • 对更大模型的可扩展性:MC‑dropout 和 ensembles 会成倍增加推理成本;论文指出对于重量级 CNN(如 ResNet‑50),在低功耗芯片上的延迟可能超出可接受范围。
  • 阈值选择:当前的基于规则的阈值是静态的;考虑上下文(电池电量、用户活动)的自适应阈值仍未探索。
  • 数据集多样性:实验仅聚焦于少数公开 HAR 数据集;需要在更异构的传感器设置(如智能眼镜、IoT 中枢)上进行更广泛的验证。
  • 超越置信度的可解释性:未来工作可以结合特征层级归因(如 SHAP),说明 为何 预测不确定,从而进一步帮助调试和提升用户信任。

核心结论:通过在运行时量化不确定性,开发者能够将“黑盒”机器学习模型转变为更可预测的 pervasive 系统组件,进而实现更安全、更易维护的 AI 产品。作者不仅提供了坚实的实验基础,还交付了可直接使用的工具——对所有在边缘构建 AI 的人来说都是值得一读的佳作。

作者

  • Vladimir Balditsyn
  • Philippe Lalanda
  • German Vega
  • Stéphanie Chollet

论文信息

  • arXiv ID: 2512.09775v1
  • Categories: cs.SE, cs.AI
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »