[Paper] 可扩展的 Explainability-as-a-Service (XaaS) 用于 Edge AI 系统
发布: (2026年2月4日 GMT+8 09:28)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.04120v1
(请提供您希望翻译的具体文本内容,我将为您进行简体中文翻译。)
Overview
该论文介绍了 Explainability‑as‑a‑Service (XaaS),一种新架构,将 AI 解释视为独立的系统服务,而不是每个模型中硬绑定的部分。通过将推理与解释生成解耦,XaaS 使在异构边缘和物联网设备上提供高质量、低延迟的解释成为可能——而传统的“耦合” XAI 方法在这方面往往力不从心。
关键贡献
- 解耦的 XAI 服务 – 将推理和解释分离,允许按需请求、缓存和验证解释。
- 分布式解释缓存 – 使用语义相似度检索已有解释,削减跨设备的冗余计算。
- 轻量级验证协议 – 保证缓存的或新生成的解释忠实反映底层模型的推理过程。
- 自适应解释引擎 – 根据设备资源和用户需求动态选择最合适的解释方法。
- 真实场景验证 – 在制造质量检测、自动驾驶感知和医疗诊断等领域进行验证,实现约 38 % 的延迟降低,同时保持解释质量。
方法论
- 面向服务的架构 – 边缘节点运行轻量推理客户端,将解释请求转发至中心 XaaS 层。
- 语义相似性检索 – 当需要解释时,XaaS 首先检查分布式缓存。如果已有语义相似的输入对应的解释,则直接复用,避免重新运行昂贵的 XAI 算法。
- 验证协议 – 通过轻量级校验和式检查,验证缓存的解释仍然与当前模型参数保持一致,确保可信度。
- 自适应引擎 – 根据 CPU、内存和延迟预算,引擎从 XAI 技术工具箱(如 SHAP、LIME、Grad‑CAM)中挑选合适的方法,生成符合设备约束的解释。
- 评估 – 作者在三个边缘 AI 场景中部署该系统,测量延迟、带宽以及解释保真度,并与基线耦合 XAI 实现进行对比。
结果与发现
| Scenario | Latency Reduction | Explanation Fidelity* | Cache Hit Rate |
|---|---|---|---|
| Manufacturing QC | 40 % | 0.92 (vs. 0.94 baseline) | 68 % |
| Autonomous Vehicles | 35 % | 0.90 (vs. 0.93 baseline) | 62 % |
| Healthcare Diagnostics | 39 % | 0.91 (vs. 0.95 baseline) | 71 % |
* 可信度通过解释与真实模型推理之间的一致性来衡量。
结果表明,XaaS 能够始终如一地将推理加解释的延迟降低约三分之一,同时将解释质量保持在最佳同类耦合方法的几百分点之内。缓存显著减少了重复工作,尤其是在重复的边缘工作负载中(例如相似的传感器帧)。
实际意义
- 可扩展的边缘部署 – 公司可以将 AI 模型部署到成千上万的传感器或边缘网关,而无需担心每个节点必须本地运行重量级的 XAI 算法。
- 资源受限设备 – 低功耗微控制器仍然可以获得解释,因为繁重的计算被卸载到 XaaS 层,仅在本地进行轻量级验证。
- 监管合规 – 对审计要求严格的行业(医疗设备、自动驾驶)可以在不牺牲实时性能的前提下满足可解释性要求。
- 开发者生产力 – 团队可以将任何现有模型接入 XaaS API,立即获得一套解释选项,减少为每个新边缘用例重新构建 XAI 流水线的需求。
- 成本节约 – 通过复用缓存中的解释,降低网络带宽和计算成本,这在带宽受限的物联网部署中尤为有价值。
限制与未来工作
- 缓存陈旧 – 如果底层模型频繁更新,缓存的解释可能会比验证协议检测到的速度更快变得过时,需要更激进的缓存失效策略。
- 安全与隐私 – 将原始输入传输到中心解释服务可能会泄露敏感数据;作者指出需要加密或联邦化的解释机制。
- 方法选择开销 – 虽然自适应引擎降低了运行时成本,但决策逻辑本身会带来少量开销,在超低功耗节点上可能会更明显。
- 未来方向 – 作者计划探索在设备上学习相似度度量,将差分隐私集成到解释流水线中,并将 XaaS 扩展以支持多模态模型(例如音视频 AI)。
作者
- Samaresh Kumar Singh
- Joyjit Roy
论文信息
- arXiv ID: 2602.04120v1
- 分类: cs.LG, cs.AI, cs.DC, cs.SE
- 发表时间: 2026年2月4日
- PDF: 下载 PDF