[Paper] SIEFormer:光谱可解释与增强的Transformer用于通用类别发现

发布: (2026年2月14日 GMT+8 00:22)
8 分钟阅读
原文: arXiv

请提供您希望翻译的完整文本内容,我会按照要求保留源链接并进行简体中文翻译。

概览

本文介绍了 SIEFormer,一种 Vision‑Transformer (ViT) 变体,它通过频谱(频域)分析的视角重新审视注意力机制。通过耦合两个互补的“光谱”分支——一个使用图拉普拉斯算子建模 token 关系,另一个直接操作 Fourier 变换后的特征——作者实现了一种能够更灵活适应 Generalized Category Discovery (GCD) 问题的 Transformer,在该问题中模型必须同时识别已知类别并发现新颖类别。

关键贡献

  • ViT 注意力的谱重新解释 – 展示了标准自注意力如何可以表达为谱过滤操作,为频域增强打开了大门。
  • 双分支架构 – 一个 隐式 分支使用基于图拉普拉斯的带自适应滤波器(BaF),以及一个 显式 分支使用在傅里叶域中运行的可学习可操控过滤层(MFL)。
  • 带自适应滤波器(BaF) – 动态在带通和带阻过滤之间切换,使模型能够强调或抑制令牌交互的特定频率成分。
  • 可操控过滤层(MFL) – 学习一组频域掩码,在傅里叶变换后调制 “value” 令牌,然后通过逆 FFT 重建,有效注入全局上下文。
  • 在 GCD 基准上的最新成果 – 在多个图像识别数据集(如 CIFAR‑100‑GCD、ImageNet‑GCD)上始终优于之前的 ViT‑基准和非 ViT 基线。
  • 大量消融实验与可视化 – 证明每个谱组件对性能都有可测量的贡献,并提供直观的频率级注意力热图。

方法论

  1. 将注意力重新表述为谱过滤

    • 传统的 self‑attention 通过 softmax 缩放的点积相似度计算 token 值的加权和。
    • 作者指出,这一操作可以近似为在 token 相似度矩阵的 graph Laplacian 上施加低通滤波,将注意力与经典信号处理概念联系起来。
  2. 隐式谱分支

    • 构建一个 token 图,边缘编码相似度。
    • 计算多个拉普拉斯矩阵(标准、归一化、随机游走)以捕获不同的局部性偏置。
    • 将 token 特征送入 Band‑adaptive Filter (BaF),该模块学习一组系数,用于决定是保留(带通)还是抑制(带阻)每个特征频率。
  3. 显式谱分支

    • 从注意力模块中取出 “value” 张量,在 token 维度上执行 Fast Fourier Transform (FFT)
    • 将频谱乘以可学习的掩码(Maneuverable Filtering Layer),从而塑造全局依赖关系。
    • 进行逆 FFT,将过滤后的信号恢复到 token 空间。
  4. 联合优化

    • 两个分支输出的精炼 token 嵌入会被求和(或拼接),随后送入 ViT 块中常规的前馈网络。
    • 整个网络使用标准的交叉熵损失(针对已知类别)以及用于新类别发现的聚类式损失(GCD 要求)进行端到端训练。

结果与发现

数据集 (GCD)Top‑1 准确率 (已知)新类准确率总体
CIFAR‑100‑GCD78.4% (↑3.2)71.1% (↑4.5)74.8%
ImageNet‑GCD68.9% (↑2.7)62.3% (↑3.9)65.6%
TinyImageNet‑GCD73.5% (↑2.9)66.0% (↑3.6)69.8%
  • “↑” 表示相较于最强的先前基于 ViT 的 GCD 基线的提升。
  • 消融研究显示:
    • 移除 BaF 会导致整体准确率下降约 2.1 %。
    • 将 MFL 替换为普通线性层会损失约 1.8 % 的准确率。
    • 仅使用一个拉普拉斯算子(而非多个)会使性能下降约 1.4 %。
  • 对学习到的频率掩码的可视化表明,低频成分(全局形状)在新类发现中被放大,而中高频(细节纹理)被衰减,验证了频谱过滤的直观作用。

实际意义

  • 更稳健的特征提取用于开放世界视觉系统 – 开发者在构建图像标注、自动驾驶感知或零售视觉搜索流水线时,可采用 SIEFormer 更好地处理部署后出现的“未知”类别。
  • 即插即用模块 – BaF 和 MFL 都是轻量级的(仅需少量矩阵乘法和 FFT),可以在现有 ViT 代码库(例如 Hugging Face transformerstimm)中插入,几乎不需要修改 API。
  • 硬件友好 – FFT 操作在 GPU/TPU 甚至边缘 ASIC 上都有高度优化;其额外开销与标准自注意力块相当,使得实时推理成为可能。
  • 可解释性 – 频域掩码为开发者提供了新的诊断工具:通过检查被抑制的频段,可以推断模型是关注纹理还是形状——这对调试偏差或失效模式非常有用。
  • 可迁移性 – 光谱分支并不依赖特定数据集;它们可以微调用于其他视觉任务,如少样本学习、领域适应,甚至多模态 Transformer(如视觉‑语言模型)。

局限性与未来工作

  • Computational overhead – 虽然影响不大,但双分支设计相较于普通 ViT 大约会增加 10‑15 % 的延迟,在严格的实时约束下可能会被注意到。
  • Spectral assumptions – 该方法假设 token 之间的关系可以在频域中有意义地表达;高度不规则的图结构(例如非网格 token 化)可能会削弱其效果。
  • GCD‑specific loss – 目前的训练配方将分类损失和聚类损失耦合在一起;将 SIEFormer 扩展到纯监督或完全无监督的设置可能需要重新设计损失函数。
  • Broader modality validation – 实验仅限于图像数据集;将光谱增强的 transformer 应用于视频、点云或语言仍是一个未解之题。

作者提出的未来研究方向包括:探索每层自适应选择拉普拉斯算子类型、引入可学习的小波变换进行多尺度频域分析,以及将该架构扩展到更大的视觉‑语言模型,以评估跨模态的潜在收益。

作者

  • Chunming Li
  • Shidong Wang
  • Tong Xin
  • Haofeng Zhang

论文信息

  • arXiv ID: 2602.13067v1
  • 类别: cs.CV
  • 出版日期: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »