[Paper] VETime：视觉增强零样本时间序列异常检测

发布: 3天前 (2026年2月19日 GMT+8 02:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16681v1

概述

本文介绍了 VETime，一种将原始时间序列数据与视觉表示相融合以实现 零样本异常检测 的新框架。通过将细粒度的时间线索与基于图像的上下文对齐，VETime 弥合了点级精度与全局模式感知之间长期存在的权衡，在无需任何特定任务训练的情况下提供了强大的检测性能。

First multimodal TSAD architecture：首个多模态 TSAD 架构，通过可逆图像转换管线同时利用 1‑D 时间信号和 2‑D 视觉模式。
Patch‑Level Temporal Alignment (PTA) 模块：创建共享的视觉‑时间轴时间线，保留每个时间戳的细节，同时实现全局上下文建模。
Anomaly Window Contrastive Learning (AWCL)：让模型在没有标注异常的情况下学习区分正常窗口和异常窗口。
Task‑Adaptive Multi‑Modal Fusion (TAMF)：根据每个输入片段的特征动态加权时间特征和视觉特征。
Zero‑shot capability：系统可直接在未见过的数据集上使用，超越最先进基线且比纯视觉方法消耗更少的计算资源。

可逆图像转换 – 将原始序列重新塑形为二维“图像”（例如通过 Gramian Angular Field 或 Recurrence Plot），并且可以无损恢复，确保视觉处理永不丢失时间忠实度。
补丁级时间对齐 – 将图像划分为补丁；每个补丁通过轻量对齐网络关联到其原始时间戳，生成同时尊重空间和时间顺序的联合嵌入。
双分支骨干网络 –
- 时间分支：轻量的 1‑D Transformer 或 CNN，擅长点式异常评分。
- 视觉分支：预训练的 Vision Transformer（ViT），捕获整个序列的长程模式。
异常窗口对比学习 – 在预训练阶段，随机抽取的窗口标记为“正常”或“合成异常”（通过扰动生成）。模型学习将正常窗口的嵌入拉近，而将包含异常的窗口的嵌入推远。
任务自适应多模态融合 – 门控机制评估每个分支在给定窗口上的置信度，并融合它们的异常得分，使系统在处理尖锐突变时依赖时间分支，在捕捉细微漂移时依赖视觉分支。

所有组件在通用时间序列语料库上一次性训练；在新数据集上的推理实现 零样本 部署——无需微调。

数据集 (Zero‑Shot)	F1‑Score (点)	F1‑Score (窗口)	平均推理时间 (ms)
NAB (真实世界)	0.84	0.78	12
UCR Anomaly Suite	0.81	0.74	15
Yahoo S5	0.79	0.71	13

VETime 优于最佳 1‑D 基线（如 LSTM‑AD、TCN），在 F1 上提升 7–12 %，同时匹配或超越仅视觉模型（如 TimeGAN‑ViT），后者需要大量微调。
动态融合 相比单独使用任一分支，可将噪声点异常的误报率降低约 30 %。
在计算上，VETime 的运行速度约为纯视觉管线的 2 倍，因为视觉分支只处理紧凑的图像（通常为 64 × 64），而时间分支仅处理短时补丁。

即插即用的异常监控：DevOps 团队可以将 VETime 嵌入现有遥测管道（例如 Prometheus、Grafana），并立即开始检测峰值和渐进漂移，无需标注数据。
边缘部署：轻量级的时间分支和适中的镜像大小保持低内存占用，使其在 IoT 网关或设备端健康监控中可行。
跨领域复用：由于模型以 zero‑shot 方式训练，同一检查点可用于日志、传感器流、金融行情数据，甚至用户行为指标，节省领域特定模型训练的成本。
提升警报精度：细粒度对齐意味着警报可以精确定位到具体时间戳，这对需要了解异常何时开始的自动化修复脚本至关重要。