[Paper] SIEFormer：光谱可解释与增强的Transformer用于通用类别发现

发布: 3天前 (2026年2月14日 GMT+8 00:22)

8 分钟阅读

原文: arXiv

请提供您希望翻译的完整文本内容，我会按照要求保留源链接并进行简体中文翻译。

概览

本文介绍了 SIEFormer，一种 Vision‑Transformer (ViT) 变体，它通过频谱（频域）分析的视角重新审视注意力机制。通过耦合两个互补的“光谱”分支——一个使用图拉普拉斯算子建模 token 关系，另一个直接操作 Fourier 变换后的特征——作者实现了一种能够更灵活适应 Generalized Category Discovery (GCD) 问题的 Transformer，在该问题中模型必须同时识别已知类别并发现新颖类别。

关键贡献

ViT 注意力的谱重新解释 – 展示了标准自注意力如何可以表达为谱过滤操作，为频域增强打开了大门。
双分支架构 – 一个隐式分支使用基于图拉普拉斯的带自适应滤波器（BaF），以及一个显式分支使用在傅里叶域中运行的可学习可操控过滤层（MFL）。
带自适应滤波器（BaF） – 动态在带通和带阻过滤之间切换，使模型能够强调或抑制令牌交互的特定频率成分。
可操控过滤层（MFL） – 学习一组频域掩码，在傅里叶变换后调制 “value” 令牌，然后通过逆 FFT 重建，有效注入全局上下文。
在 GCD 基准上的最新成果 – 在多个图像识别数据集（如 CIFAR‑100‑GCD、ImageNet‑GCD）上始终优于之前的 ViT‑基准和非 ViT 基线。
大量消融实验与可视化 – 证明每个谱组件对性能都有可测量的贡献，并提供直观的频率级注意力热图。

方法论

将注意力重新表述为谱过滤
- 传统的 self‑attention 通过 softmax 缩放的点积相似度计算 token 值的加权和。
- 作者指出，这一操作可以近似为在 token 相似度矩阵的 graph Laplacian 上施加低通滤波，将注意力与经典信号处理概念联系起来。
隐式谱分支
- 构建一个 token 图，边缘编码相似度。
- 计算多个拉普拉斯矩阵（标准、归一化、随机游走）以捕获不同的局部性偏置。
- 将 token 特征送入 Band‑adaptive Filter (BaF)，该模块学习一组系数，用于决定是保留（带通）还是抑制（带阻）每个特征频率。
显式谱分支
- 从注意力模块中取出 “value” 张量，在 token 维度上执行 Fast Fourier Transform (FFT)。
- 将频谱乘以可学习的掩码（Maneuverable Filtering Layer），从而塑造全局依赖关系。
- 进行逆 FFT，将过滤后的信号恢复到 token 空间。
联合优化
- 两个分支输出的精炼 token 嵌入会被求和（或拼接），随后送入 ViT 块中常规的前馈网络。
- 整个网络使用标准的交叉熵损失（针对已知类别）以及用于新类别发现的聚类式损失（GCD 要求）进行端到端训练。

结果与发现

数据集 (GCD)	Top‑1 准确率 (已知)	新类准确率	总体
CIFAR‑100‑GCD	78.4% (↑3.2)	71.1% (↑4.5)	74.8%
ImageNet‑GCD	68.9% (↑2.7)	62.3% (↑3.9)	65.6%
TinyImageNet‑GCD	73.5% (↑2.9)	66.0% (↑3.6)	69.8%

“↑” 表示相较于最强的先前基于 ViT 的 GCD 基线的提升。
消融研究显示：
- 移除 BaF 会导致整体准确率下降约 2.1 %。
- 将 MFL 替换为普通线性层会损失约 1.8 % 的准确率。
- 仅使用一个拉普拉斯算子（而非多个）会使性能下降约 1.4 %。
对学习到的频率掩码的可视化表明，低频成分（全局形状）在新类发现中被放大，而中高频（细节纹理）被衰减，验证了频谱过滤的直观作用。

实际意义

更稳健的特征提取用于开放世界视觉系统 – 开发者在构建图像标注、自动驾驶感知或零售视觉搜索流水线时，可采用 SIEFormer 更好地处理部署后出现的“未知”类别。
即插即用模块 – BaF 和 MFL 都是轻量级的（仅需少量矩阵乘法和 FFT），可以在现有 ViT 代码库（例如 Hugging Face transformers、timm）中插入，几乎不需要修改 API。
硬件友好 – FFT 操作在 GPU/TPU 甚至边缘 ASIC 上都有高度优化；其额外开销与标准自注意力块相当，使得实时推理成为可能。
可解释性 – 频域掩码为开发者提供了新的诊断工具：通过检查被抑制的频段，可以推断模型是关注纹理还是形状——这对调试偏差或失效模式非常有用。
可迁移性 – 光谱分支并不依赖特定数据集；它们可以微调用于其他视觉任务，如少样本学习、领域适应，甚至多模态 Transformer（如视觉‑语言模型）。

局限性与未来工作

Computational overhead – 虽然影响不大，但双分支设计相较于普通 ViT 大约会增加 10‑15 % 的延迟，在严格的实时约束下可能会被注意到。
Spectral assumptions – 该方法假设 token 之间的关系可以在频域中有意义地表达；高度不规则的图结构（例如非网格 token 化）可能会削弱其效果。
GCD‑specific loss – 目前的训练配方将分类损失和聚类损失耦合在一起；将 SIEFormer 扩展到纯监督或完全无监督的设置可能需要重新设计损失函数。
Broader modality validation – 实验仅限于图像数据集；将光谱增强的 transformer 应用于视频、点云或语言仍是一个未解之题。

作者提出的未来研究方向包括：探索每层自适应选择拉普拉斯算子类型、引入可学习的小波变换进行多尺度频域分析，以及将该架构扩展到更大的视觉‑语言模型，以评估跨模态的潜在收益。

作者

Chunming Li
Shidong Wang
Tong Xin
Haofeng Zhang

论文信息

arXiv ID: 2602.13067v1
类别: cs.CV
出版日期: 2026年2月13日
PDF: 下载 PDF

[Paper] SIEFormer：光谱可解释与增强的Transformer用于通用类别发现

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] FlexAM: 灵活的外观-运动分解用于多功能视频生成控制

[Paper] 单目无标记动作捕捉实现上肢可达工作空间的定量评估