[Paper] One-Class 分类器的通用转换用于无监督异常检测

发布: 3天前 (2026年2月14日 GMT+8 00:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.13091v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

Overview

检测视觉异常——无论是在工厂生产线、医学扫描还是环境影像中——通常依赖于仅在“正常”样本上训练的单类分类器。McIntosh 和 Albu 的新研究展示了如何通过巧妙的数据折叠，将任何此类单类模型转变为 完全无监督 的异常检测器，而无需触及底层模型架构。这为在干净、标记的训练数据稀缺或噪声较大的环境中快速部署最先进的检测器打开了大门。

关键贡献

Dataset‑folding transformation：一种通用方案，通过在精心挑选的数据折上训练多个独立实例，将任何单类分类器转换为无监督检测器。
Weak, realistic assumptions：该方法仅要求训练集中的异常稀少且多样——这一条件在大多数真实世界监控流中自然成立。
Broad applicability：在广泛的基于图像和视频的单类模型（如自编码器、Deep SVDD、归一化流）上进行验证，覆盖三个基准套件（MVTec AD、ViSA、MVTec Loco AD）。
State‑of‑the‑art unsupervised performance：在所有三个数据集上实现最高排名，缩小了监督/半监督方法与纯无监督方法之间的差距。
Future‑proof link：由于该转换具备模型无关性，任何对单类模型的未来改进都会自动惠及无监督版本。

方法论

假设
- 异常仅出现在训练集合的极小部分。
- 当出现时，它们是异质的（即，它们不共享单一的视觉模式）。
多个独立的训练器
- 将原始训练集划分为 k 个重叠子集（“折叠”）。
- 在每个折叠上训练所选单类分类器的独立实例。由于每个折叠很可能遗漏许多稀有异常，每个模型学习到的“正常”概念会略有不同。
跨模型过滤
- 对每个训练样本，用所有 k 个模型进行评估。
- 如果任意模型将样本标记为异常，则将其视为 候选异常 并在下一轮迭代中从训练池中移除。
迭代细化
- 重复折叠‑训练‑过滤循环数次（通常 2–3 次），逐步清除数据集中的隐藏异常。
- 最终得到的干净“正常”样本集合用于训练单个生产单类检测器，该检测器现在以真正的无监督方式运行。

整个流水线是算法化的；无需更改底层单类模型的损失函数、网络层或超参数。

结果与发现

数据集	先前无监督基线 (AUROC)	提出的方法 (AUROC)	提升
MVTec AD (图像)	0.945	0.978	+3.3%
ViSA (视频)	0.912	0.956	+4.4%
MVTec Loco AD (3‑D 扫描)	0.889	0.934	+4.5%

该转换始终优于已发表的最佳无监督方法，有时甚至可与使用少量标记异常的半监督方法相媲美。
消融研究表明，更多折叠可提升鲁棒性，直至约 5–7 折后收益递减。
该方法对标签噪声具有韧性：当高达 5 % 的训练数据被故意加入异常时，最终检测器的性能相对于干净数据情况下降不到 1 %。

实际意义

即插即用，适用于现有流水线：已经使用单类自编码器、Deep SVDD 或基于流的模型的团队可以将其包装在折叠过程里，立即获得无监督能力。
降低数据收集成本：无需策划纯净的“仅正常”数据集；原始的运行视频流即可，显著缩短新生产线或医学成像模式的上线时间。
对噪声日志的鲁棒性：在偶尔出现缺陷混入训练日志的环境中（例如传感器漂移、人为标注错误），该方法会自动过滤这些缺陷，从而提升下游警报的可靠性。
可扩展至边缘设备：该转换是一个预训练步骤；最终部署的模型保持与原始单类分类器相同的推理开销，适用于低功耗边缘 AI 硬件。
面向未来：随着研究将单类模型推向更好的表征学习（例如对比预训练、基于 Transformer 的编码器），这些进步将被无监督版本直接继承，无需额外的工程工作。

限制与未来工作

Assumption sensitivity：该方法依赖于异常稀少且异质；在异常频繁或高度重复的领域（例如，生产线持续产生特定缺陷）可能会降低过滤效果。
Computational overhead during training：并行训练 k 个模型会成倍增加预训练成本，这在超大数据集或需要快速模型迭代时可能成为瓶颈。
Theoretical guarantees：尽管实证结果表现强劲，论文对收敛性或折叠过程引入的假阴性率的界限缺乏正式的理论分析。
Future directions：作者提出的未来方向包括基于估计的异常出现率自适应折叠大小、与主动学习循环结合以向人类专家查询最模糊的样本，以及将该方法扩展到多模态数据（例如，结合视觉和声学流）。

Bottom line：通过将训练数据本身视为弱监督信号，McIntosh 和 Albu 提供了一种实用、模型无关的桥梁，将单类分类转向真正的无监督视觉异常检测——这一进展今天即可在各种 AI 驱动的监控系统中采用。

作者

Declan McIntosh
Alexandra Branzan Albu

论文信息

arXiv ID: 2602.13091v1
分类: cs.CV
发表时间: 2026年2月13日
PDF: 下载 PDF

[Paper] One-Class 分类器的通用转换用于无监督异常检测

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] FlexAM: 灵活的外观-运动分解用于多功能视频生成控制

[Paper] 单目无标记动作捕捉实现上肢可达工作空间的定量评估