[Paper] 量化机器学习驱动的普适系统中的不确定性：在人类活动识别中的应用

发布: 2个月前 (2025年12月10日 GMT+8 23:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09775v1

概览

论文 “Quantifying Uncertainty in Machine Learning‑Based Pervasive Systems: Application to Human Activity Recognition” 解决了当今许多开发者面临的实际问题：在实时、嵌入式（ pervasive）应用中，如何判断机器学习模型何时可能出错。通过改编一套不确定性估计技术，作者展示了如何为活动识别模型提供置信度分数，并在置信度下降时让系统安全地做出响应。

关键贡献

统一的不确定性估计流水线，将多种最先进的方法（Monte‑Carlo dropout、deep ensembles 和 predictive entropy）结合用于设备端推理。
运行时相关性评估：一个轻量级决策模块，用于标记不确定性超过可配置阈值的预测。
在人类活动识别（HAR）数据集上的实证验证，覆盖多种传感器、活动和用户，证明不确定性与误分类高度相关。
面向领域专家的工具：可视化仪表盘和 API，公开置信度指标，支持迭代模型改进和更安全的部署。
将不确定性量化（UQ）集成到 pervasive 系统中的指南，不破坏实时约束。

方法论

模型选择 – 作者从一个传统的深度神经网络（CNN/LSTM 混合）开始，对原始传感器流（加速度计、陀螺仪等）进行训练。
不确定性技术 – 应用了三种互补的方法：
- Monte‑Carlo (MC) dropout：在推理时保持 dropout 层激活，模型多次运行以获得预测分布。
- Deep ensembles：多个独立训练的模型投票，其输出之间的方差作为不确定性的代理。
- Predictive entropy：直接计算 softmax 输出的熵，作为标量置信度度量。
融合与阈值化 – 将三种信号归一化后加权平均，得到单一的“相关性分数”。一个简单的基于规则的阈值决定在运行时接受或拒绝预测。
评估协议 – 实验使用公开的 HAR 基准（如 UCI HAR、PAMAP2）以及从智能手机和可穿戴设备收集的自定义野外数据集。作者报告了标准分类指标以及不确定性感知指标，如 coverage（保留预测的比例）与 accuracy（准确率）之间的权衡。
工具支持 – 一个开源的 Python 库封装了整个流水线，提供 REST 接口和轻量级仪表盘，用于实时可视化置信度。

结果与发现

指标	基线（无 UQ）	使用 MC‑Dropout	使用 Ensembles	综合方法
整体准确率	92.3 %	91.8 %	92.0 %	92.1 %
Coverage @ 95 % 准确率	68 %	74 %	77 %	81 %
误分类检测 (AUROC)	0.71	0.78	0.81	0.86

不确定性与错误强相关：被标记为“高不确定性”的预测错误率为 68 %，而低不确定性预测的错误率仅为 8 %。
运行时开销保持在 15 ms 以下，在典型的 ARM Cortex‑A53 上满足大多数实时 HAR 场景的需求。
领域专家 通过仪表盘能够定位传感器漂移（例如手环松动）是导致不确定性上升的原因，从而快速进行重新校准。

实际意义

更安全的边缘 AI：当置信度低时，设备可以自动回退到基于规则的启发式方法或请求用户确认，降低错误行为的风险（如误报跌倒）。
动态模型管理：云端服务可以仅对持续触发高不确定性的数据段进行再训练，节省带宽和计算资源。
合规性与可审计性：提供置信度分数满足新兴法规对健康、汽车和工作场所安全等 AI 决策的可解释性要求。
开发者友好：提供的库抽象掉数学细节，工程师只需一行代码 (model.predict_with_uncertainty(x)) 即可加入不确定性检查。
跨领域可移植性：虽然在 HAR 上进行了评估，但相同的流水线可以迁移到其他 pervasive 任务——手势识别、环境监测或设备端语音指令等。

局限性与未来工作

对更大模型的可扩展性：MC‑dropout 和 ensembles 会成倍增加推理成本；论文指出对于重量级 CNN（如 ResNet‑50），在低功耗芯片上的延迟可能超出可接受范围。
阈值选择：当前的基于规则的阈值是静态的；考虑上下文（电池电量、用户活动）的自适应阈值仍未探索。
数据集多样性：实验仅聚焦于少数公开 HAR 数据集；需要在更异构的传感器设置（如智能眼镜、IoT 中枢）上进行更广泛的验证。
超越置信度的可解释性：未来工作可以结合特征层级归因（如 SHAP），说明为何预测不确定，从而进一步帮助调试和提升用户信任。

核心结论：通过在运行时量化不确定性，开发者能够将“黑盒”机器学习模型转变为更可预测的 pervasive 系统组件，进而实现更安全、更易维护的 AI 产品。作者不仅提供了坚实的实验基础，还交付了可直接使用的工具——对所有在边缘构建 AI 的人来说都是值得一读的佳作。

作者

Vladimir Balditsyn
Philippe Lalanda
German Vega
Stéphanie Chollet

论文信息

arXiv ID: 2512.09775v1
Categories: cs.SE, cs.AI
Published: December 10, 2025
PDF: Download PDF

[Paper] 量化机器学习驱动的普适系统中的不确定性：在人类活动识别中的应用

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型