[Paper] 可扩展的 Explainability-as-a-Service (XaaS) 用于 Edge AI 系统

发布: 4天前 (2026年2月4日 GMT+8 09:28)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.04120v1

（请提供您希望翻译的具体文本内容，我将为您进行简体中文翻译。）

Overview

该论文介绍了 Explainability‑as‑a‑Service (XaaS)，一种新架构，将 AI 解释视为独立的系统服务，而不是每个模型中硬绑定的部分。通过将推理与解释生成解耦，XaaS 使在异构边缘和物联网设备上提供高质量、低延迟的解释成为可能——而传统的“耦合” XAI 方法在这方面往往力不从心。

关键贡献

解耦的 XAI 服务 – 将推理和解释分离，允许按需请求、缓存和验证解释。
分布式解释缓存 – 使用语义相似度检索已有解释，削减跨设备的冗余计算。
轻量级验证协议 – 保证缓存的或新生成的解释忠实反映底层模型的推理过程。
自适应解释引擎 – 根据设备资源和用户需求动态选择最合适的解释方法。
真实场景验证 – 在制造质量检测、自动驾驶感知和医疗诊断等领域进行验证，实现约 38 % 的延迟降低，同时保持解释质量。

方法论

面向服务的架构 – 边缘节点运行轻量推理客户端，将解释请求转发至中心 XaaS 层。
语义相似性检索 – 当需要解释时，XaaS 首先检查分布式缓存。如果已有语义相似的输入对应的解释，则直接复用，避免重新运行昂贵的 XAI 算法。
验证协议 – 通过轻量级校验和式检查，验证缓存的解释仍然与当前模型参数保持一致，确保可信度。
自适应引擎 – 根据 CPU、内存和延迟预算，引擎从 XAI 技术工具箱（如 SHAP、LIME、Grad‑CAM）中挑选合适的方法，生成符合设备约束的解释。
评估 – 作者在三个边缘 AI 场景中部署该系统，测量延迟、带宽以及解释保真度，并与基线耦合 XAI 实现进行对比。

结果与发现

Scenario	Latency Reduction	Explanation Fidelity*	Cache Hit Rate
Manufacturing QC	40 %	0.92 (vs. 0.94 baseline)	68 %
Autonomous Vehicles	35 %	0.90 (vs. 0.93 baseline)	62 %
Healthcare Diagnostics	39 %	0.91 (vs. 0.95 baseline)	71 %

* 可信度通过解释与真实模型推理之间的一致性来衡量。

结果表明，XaaS 能够始终如一地将推理加解释的延迟降低约三分之一，同时将解释质量保持在最佳同类耦合方法的几百分点之内。缓存显著减少了重复工作，尤其是在重复的边缘工作负载中（例如相似的传感器帧）。

实际意义

可扩展的边缘部署 – 公司可以将 AI 模型部署到成千上万的传感器或边缘网关，而无需担心每个节点必须本地运行重量级的 XAI 算法。
资源受限设备 – 低功耗微控制器仍然可以获得解释，因为繁重的计算被卸载到 XaaS 层，仅在本地进行轻量级验证。
监管合规 – 对审计要求严格的行业（医疗设备、自动驾驶）可以在不牺牲实时性能的前提下满足可解释性要求。
开发者生产力 – 团队可以将任何现有模型接入 XaaS API，立即获得一套解释选项，减少为每个新边缘用例重新构建 XAI 流水线的需求。
成本节约 – 通过复用缓存中的解释，降低网络带宽和计算成本，这在带宽受限的物联网部署中尤为有价值。

限制与未来工作

缓存陈旧 – 如果底层模型频繁更新，缓存的解释可能会比验证协议检测到的速度更快变得过时，需要更激进的缓存失效策略。
安全与隐私 – 将原始输入传输到中心解释服务可能会泄露敏感数据；作者指出需要加密或联邦化的解释机制。
方法选择开销 – 虽然自适应引擎降低了运行时成本，但决策逻辑本身会带来少量开销，在超低功耗节点上可能会更明显。
未来方向 – 作者计划探索在设备上学习相似度度量，将差分隐私集成到解释流水线中，并将 XaaS 扩展以支持多模态模型（例如音视频 AI）。

作者

Samaresh Kumar Singh
Joyjit Roy

论文信息

arXiv ID: 2602.04120v1
分类: cs.LG, cs.AI, cs.DC, cs.SE
发表时间: 2026年2月4日
PDF: 下载 PDF

[Paper] 可扩展的 Explainability-as-a-Service (XaaS) 用于 Edge AI 系统

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同