[Paper] 通过基于事件的上下文和置信度提升大语言模型在零样本 ADL 识别中的表现

发布: (2026年1月13日 GMT+8 13:58)
7 min read
原文: arXiv

Source: arXiv - 2601.08241v1

概述

该论文解决了智能家居和物联网应用的核心挑战:在无需昂贵的手动标注传感器数据的情况下识别 Activities of Daily Living (ADLs)。通过将 large language models (LLMs) 与更智能的传感器流切分方式——event‑based segmentation——相结合,作者实现了 zero‑shot ADL recognition,其表现可与传统监督方法相媲美(甚至在某些情况下超越),并为每个预测提供了内置的置信分数。

关键贡献

  • 基于事件的分段:用与自然活动边界对齐的分段取代常见的固定窗口(基于时间)方法,更好地匹配大型语言模型的上下文推理。
  • 置信度估计:引入一种轻量级度量,量化每个大型语言模型生成的活动标签的可信度,使下游系统仅在高置信度预测上采取行动。
  • 零样本性能提升:展示即使是相对较小的语言模型(例如 Gemma‑3 27B)也能在真实的多传感器数据集上超越最先进的监督分类器。
  • 全面评估:在复杂的真实世界智能家居录音上进行基准测试,显示在不同活动复杂度和传感器配置下均有一致的提升。

方法论

  1. Data collection – 传感器流(运动、温度、门磁等)来自智能家居,被视为连续的时间序列。
  2. Event‑based segmentation – 与将流切分为固定大小窗口不同,系统检测 change points(例如,门打开、运动突发),并创建对应实际事件的片段。这产生可变长度的块,更自然地描述单一活动。
  3. Prompt engineering – 将每个片段转换为文本描述(例如,“厨房检测到运动,冰箱门被打开”),并与提示一起输入 LLM,提示模型标注 ADL(例如,“可能正在进行什么活动?”)。
  4. Confidence measure – 作者提取 LLM 的内部 token 概率,并计算归一化得分,以反映模型在选择标签相对于其他选项时的确定程度。
  5. Evaluation – 将该流水线与以下方法进行比较:
    • 传统的基于时间窗口的 LLM 基线。
    • 在相同传感器数据上训练的监督分类器(例如 Random Forest、CNN‑LSTM)。

结果与发现

方法F1‑score (average)Confidence‑AUC
Time‑window LLM (Gemma‑3 27B)0.710.68
Event‑based LLM (Gemma‑3 27B)0.840.89
Supervised CNN‑LSTM (full labels)0.78N/A
Supervised Random Forest0.73N/A
  • 基于事件的分割 相较于时间窗口基线实现了 约 13 % 的绝对 F1 提升,并且 超越 了最佳的监督模型,尽管没有任何标记的 ADL 数据。
  • 置信度指标达到了 0.89 的 AUC,这意味着它能够可靠地区分正确与错误的预测;开发者可以设置阈值来过滤低置信度的输出。
  • 即使使用 270 亿参数的 LLM,系统也能在单个 GPU 上流畅运行,表明该方法能够在硬件资源有限的情况下扩展。

实际意义

  • 快速部署:智能家居供应商可以在无需数月数据标注阶段的情况下推出活动感知服务(例如,跌倒检测、节能例程)。
  • 边缘友好流水线:基于事件的分割降低了发送到 LLM 的数据量,减少带宽和延迟——这对设备端或雾计算场景至关重要。
  • 安全关键门控:置信分数使得应用仅在模型足够确定时触发警报(例如,医疗紧急情况),从而降低误报。
  • 跨领域可移植性:由于该方法依赖通用传感器事件和语言模型,可在工业物联网、办公室占用监测等其他领域以最小的重新工程进行适配。

局限性与未来工作

  • 传感器多样性:实验聚焦于特定的智能家居传感器套件;在高度异构或稀疏的传感器配置上的性能仍需验证。
  • LLM 大小与延迟:虽然 27B 参数模型在现代 GPU 上可管理,但超低功耗边缘设备可能仍需更小的模型或量化变体。
  • 置信度校准:所提出的度量在经验上表现良好,但正式的概率校准(例如温度缩放)可能进一步提升可靠性。
  • 用户隐私:将原始传感器数据转换为文本提示可能泄露敏感模式;未来工作应探索隐私保护的提示编码。

结论:通过将传感器分段方式与大语言模型的思考方式对齐——即通过事件而非任意时间窗口——并加入置信度过滤器,这项研究为在智能环境中实现真正即插即用的活动识别打开了大门,消除了数据标注的瓶颈,同时让开发者能够掌控可靠性。

作者

  • Michele Fiori
  • Gabriele Civitarese
  • Marco Colussi
  • Claudio Bettini

论文信息

  • arXiv ID: 2601.08241v1
  • 分类: cs.CV, cs.DC
  • 出版日期: 2026年1月13日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »