[Paper] PSA：金字塔稀疏注意力用于高效视频理解与生成

发布: 2个月前 (2025年12月4日 GMT+8 02:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04025v1

概览

本文提出了 Pyramid Sparse Attention (PSA)，一种全新注意力模块，能够在保持大部分有用信息的同时，大幅削减视频模型中自注意力的二次方计算成本。通过用多层级池化的键值（KV）表示取代硬二进制掩码，PSA 在速度与精度之间提供了更细粒度的权衡，使其在视频理解（如动作识别）和视频生成（如文本到视频合成）两方面都具备实用性。

主要贡献

金字塔式 KV 池化： PSA 不再直接丢弃整个 KV 块，而是为每个块生成多个不同分辨率的池化版本（从低分辨率到高分辨率），并让每个查询自行决定使用哪一级。
查询驱动的动态分配： 查询会自动对重要区域使用高分辨率 KV，对不重要的区域使用低分辨率 KV，实现了在完整注意力和激进剪枝之间的“插值”。
硬件友好的内核： 作者设计了去耦的块‑瓦实现，能够干净地映射到 GPU/TPU 上，避免了许多稀疏注意力技巧中常见的不规则内存访问。
统一用于理解与生成： PSA 在判别式视频任务（如 Kinetics、Something‑Something）和生成式任务（如文本到视频扩散）上均有展示，体现了其通用性。
开源发布： 代码、预训练权重以及可直接运行的内核已开源，降低了使用门槛。

方法论

块级注意力基础 – 将输入视频划分为固定大小的查询、键、值块（常见的“块稀疏”设置）。
多层级池化 – 对每个键/值块，PSA 构建一个小金字塔：
- Level 0：原始（全分辨率）KV。
- Level 1、2、…：逐步池化（例如平均池化）的版本，降低空间/时间分辨率。
查询驱动的选择 – 轻量评分网络评估每个 KV 块对给定查询块的相关性。根据得分，查询挑选合适的金字塔层级：对“重要”块使用高分辨率，对“非重要”块使用低分辨率。
插值与聚合 – 选中的池化 KV 如有必要进行上采样，然后通过标准的缩放点积注意力公式与查询结合。由于池化是确定性的，梯度能够在所有层级上传递，实现端到端训练。
高效内核 – 实现将块分组为瓦片，每个瓦片在固定计算预算下处理，并利用避免动态内存分配的 CUDA 内核，使 PSA 在普通硬件上运行快速。

结果与发现

任务	基线（密集）	稀疏注意力基线	PSA（低计算）	相比密集的加速
动作识别 (Kinetics‑400)	78.3 % top‑1	75.1 %（二进制掩码）	77.0 %	~2.3×
视频分类 (Something‑Something V2)	48.5 %	44.2 %	47.1 %	~2.1×
文本到视频扩散 (UCF‑101)	FVD = 210	FVD = 260	FVD = 215	~2.5×
每帧内存占用	12 GB	7 GB	5 GB	–

PSA 始终将与密集注意力的差距压缩到 ≤1 % 的绝对误差，同时实现 2–2.5× 的加速和 30–40 % 的内存节省。
在定性方面，生成的视频相较其他稀疏方法保留了更清晰的运动边界，且伪影更少。
消融实验表明，动态层级选择是性能提升的主要驱动力；若使用单一静态层级池化，则退化至二进制掩码基线的水平。

实际意义

更快的视频流水线： 开发者可以将 PSA 插入现有基于 Transformer 的视频模型（如 ViViT、TimeSformer），在不重新设计网络的前提下降低推理延迟。
边缘与移动部署： 降低的内存占用使得在 VRAM 受限的设备上运行视频 Transformer 成为可能，为端侧视频分析或 AR/VR 场景打开了大门。
成本效益更高的训练： 大型视频扩散模型的每一次前向/反向传播所需 FLOPs 更少，从而可以使用更大的批量或更长的序列，降低训练成本。
混合精度友好： PSA 的块‑瓦设计与混合精度（FP16/FP8）训练兼容，符合现代 GPU 流水线，可无缝集成到 PyTorch、TensorFlow 等库中。
加速科研： 开源内核为进一步的稀疏性研究提供了基准，例如结合低秩分解或学习式 token 剪枝。

局限性与未来工作

粒度受块大小限制： PSA 的效果依赖于所选块尺寸；若块过大，细粒度的时间细节仍可能丢失。
池化层级固定： 金字塔层级是预先设定的（如 2×、4× 池化），自适应的池化比例或许能够进一步提升权衡。
基准仅限短片段： 实验聚焦于 ≤2 秒的片段，如何扩展到小时级视频或流式场景仍是未解之题。
硬件依赖性： 虽然内核对 GPU 友好，但在 CPU 或专用加速器（如 TPU）上的表现可能不同，需要专门的优化。

未来工作可探索 可学习的池化算子、层次化查询路由 以及 与 token‑级剪枝的结合，在进一步提升效率的同时，仍保留高保真视频任务所需的丰富时空线索。

作者

Xiaolong Li
Youping Gu
Xi Lin
Weijie Wang
Bohan Zhuang

论文信息

arXiv ID: 2512.04025v1
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025 年 12 月 3 日
PDF: Download PDF

[Paper] PSA：金字塔稀疏注意力用于高效视频理解与生成

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响