[Paper] Vendi Novelty Scores 用于分布外检测
发布: (2026年2月11日 GMT+8 02:30)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10062v1
概述
分布外(OOD)检测用于标记与模型训练数据不同的输入——为任何生产级 AI 系统提供安全网。本文提出 Vendi Novelty Scores (VNS),一种新的 OOD 检测器,它将新颖性视为多样性问题,而不是依赖置信度或似然估计。通过衡量测试样本对分布内特征集合多样性的提升程度,VNS 在保持简洁、快速、低内存的同时,实现了最先进的检测性能。
关键贡献
- 基于多样性的 OOD 检测: 将 OOD 检测表述为新样本如何改变 Vendi Score(一种基于相似性的多样性度量)的问题。
- Vendi Novelty Score (VNS): 一种非参数、线性时间算法,结合 局部(类别条件)和 全局(全数据集)新颖性线索,无需任何密度建模。
- 可扩展到极小参考集: 表明即使仅使用 1 % 的训练数据构建 VNS,也能保持最高性能,从而可在边缘设备或隐私受限环境中使用。
- 广泛的实证验证: 在多个图像分类基准(CIFAR‑10/100、ImageNet 等)和多种网络架构(ResNet、DenseNet、Vision Transformers)上,超越现有的事后 OOD 检测器。
方法论
- 特征提取: 将所有分布内(in‑distribution)训练样本通过目标模型的冻结主干网络,收集它们的潜在表示(例如倒数第二层的特征)。
- 计算 Vendi Score(VS): VS 是一种基于核函数的多样性度量,用于聚合一组向量之间的成对相似度。直观上,若集合中有许多相似的点,则 VS 较低;若集合在特征空间中分布得更广,则 VS 较高。
- 新颖性估计: 对于测试样本 (x),计算原始分布内集合 加上 (x) 的特征后的 VS。Vendi Novelty Score 即为加入 (x) 所导致的 VS 增量。
[ \text{VNS}(x) = \text{VS}(\mathcal{F}\cup{f(x)}) - \text{VS}(\mathcal{F}) ]
其中 (\mathcal{F}) 表示已存储的特征集合,(f(\cdot)) 为特征提取器。
- 局部与全局信号: VNS 可以在整个特征集合上计算(全局),也可以分别对每个类别计算(局部)。最终得分是两者的加权融合,使检测器能够捕捉“该样本与任何类别都不相似”以及“该样本远离整体数据流形”这两种情况。
- 决策规则: 在 VNS 上设定一个简单阈值即可区分分布内与 OOD(分布外)输入;阈值可通过少量验证集进行设定。
由于 VS 使用的核函数可以在每对样本之间常数时间内评估,整体计算成本随 (\mathcal{F}) 的规模线性增长。无需额外的训练、密度估计或基于梯度的评分。
结果与发现
| 数据集 / 主干网络 | AUROC(先前最佳) | AUROC(VNS) | 参考集使用的内存 |
|---|---|---|---|
| CIFAR‑10 / ResNet‑34 | 96.2 % | 98.1 % | 训练图像的 1 % |
| CIFAR‑100 / DenseNet | 93.5 % | 96.8 % | 训练图像的 1 % |
| ImageNet‑O / ViT‑B/16 | 89.4 % | 92.3 % | 训练图像的 1 % |
关键要点
- 最先进的检测: VNS 在持续超越基于置信度(例如 Maximum Softmax Probability)和基于似然度(例如 Mahalanobis)的检测器。
- 对减少的参考数据具有鲁棒性: 即使存储特征减少了 99 %,VNS 的 AUROC 下降不到 1 %,这表明仅用极小的训练分布草图也能捕获多样性。
- 快速推理: 线性时间评分在 CPU 上每张图像的延迟低于毫秒,使其在实时系统中实用。
实际意义
- 边缘和物联网部署: 由于 VNS 只需要少量存储的特征向量,它可以适用于内存预算严格的设备(例如智能手机、无人机、嵌入式摄像头)。
- 零训练 OOD 防护: 团队可以在不重新训练或微调的情况下,将 OOD 检测器添加到现有模型——只需一次性提取一个小的特征库,然后接入 VNS 过程。
- 安全关键流水线: 在自动驾驶、医学影像或欺诈检测等场景中,VNS 可以充当轻量级的“新颖性警报”,在下游决策之前标记出分布外的输入。
- 隐私保护场景: 由于参考集可以是原始数据的极小且可能已匿名化的子集,VNS 符合限制数据保留的法规要求。
限制与未来工作
- 对特征质量的依赖: VNS 继承底层模型的表征能力;如果主干网络对类别的区分能力不足,VNS 可能表现不佳。
- 核函数选择的敏感性: 虽然作者使用了高斯核,但为高维特征选择带宽会影响性能,可能需要针对特定领域进行调优。
- 超出视觉的扩展: 本文聚焦于图像分类;将 VNS 应用于文本、语音或多模态数据需要研究合适的特征提取器和相似度度量。
- 理论保证: 未来工作可以将检测错误的界限形式化为参考集大小和核参数的函数,从而为安全关键的部署提供更强的保障。
作者
- Amey P. Pasarkar
- Adji Bousso Dieng
论文信息
- arXiv ID: 2602.10062v1
- 分类: cs.LG, cs.CV
- 发布时间: 2026年2月10日
- PDF: 下载 PDF