[Paper] ParaFormer：一种通用的 PageRank 图 Transformer，用于图表示学习

发布: 1个月前 (2025年12月17日 GMT+8 01:30)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.14619v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文介绍了 ParaFormer，一种新颖的图 Transformer，解决了深层图神经网络（GNN）和早期图 Transformer 都面临的著名的过平滑问题。通过在 Transformer 架构中嵌入基于 PageRank 的注意力机制，作者实现了一个既能保持判别性节点特征，又能捕获长程依赖的模型——在广泛的图学习基准上实现了持续的性能提升。

关键贡献

PageRank‑enhanced attention: 一种新的注意力公式，模拟深层 Transformer 行为，同时充当自适应通滤波器，以抑制过度平滑。
Theoretical analysis: 形式化证明所提出的注意力表现为具有可控带宽的低通滤波器，不同于普通全局注意力会导致节点表示塌陷。
Extensive empirical validation: 在 11 个节点和图分类数据集上取得最先进的结果，规模从几千到数百万节点不等。
Open‑source implementation: 完整代码库和可复现脚本已在 GitHub 上发布，便于快速采用和进一步研究。

方法论

问题诊断 – 作者首先展示了标准图 Transformer 中的全局自注意力表现为一种强力低通滤波器，导致节点嵌入变得难以区分（即过平滑效应）。
PageRank 引导的注意力 – 他们用 PageRank 缩放 版本替代了普通的注意力分数。具体而言，每个节点的注意力权重会乘以其个性化 PageRank 分数，该分数反映了相对于查询节点的“中心性”。
自适应通滤波器设计 – 通过调节 PageRank 计算中的跳转（重启）概率，模型可以在保留高频（局部）信息和聚合低频（全局）上下文之间平滑切换。
集成到 Transformer 堆叠中 – 将增强的 PageRank 注意力嵌入标准的多头 Transformer 编码器，保留 Transformer 深度的所有优势（如表达能力、并行性），无需大量 GNN 层。

整体流程对开发者仍然熟悉：

input node features → linear projection → PageRank‑aware attention → feed‑forward network → stack → readout (node‑ or graph‑level)

Results & Findings

任务	数据集（规模）	基线（GNN/GT）	ParaFormer	提升
节点分类	Cora, PubMed, ogbn‑arxiv（最多 2M 节点）	GCN, GraphSAGE, vanilla Graph Transformer	+3.2% – +7.5% accuracy	在不同规模上保持一致
图分类	MUTAG, PROTEINS, ZINC（最多 1M 图）	GIN, Graphormer	+2.1% – +5.8% ROC‑AUC	更好地处理远程依赖

关键观察

ParaFormer 的性能差距在更大、更稀疏的图上更为显著，此时过平滑问题最为严重。
消融实验表明，PageRank 缩放是提升的主要驱动因素；去除该模块后性能会回落到普通注意力的水平。
敏感性分析显示，跳转概率可以针对不同数据集进行调节，但默认值（≈0.15）即开箱即用表现良好。

Practical Implications

可扩展的图学习 – 开发者可以用更浅的 ParaFormer 编码器替代深层 GNN 堆叠，降低内存占用，同时仍能捕获全局上下文。
对图规模的鲁棒性 – 由于 PageRank 计算可以通过快速幂迭代或个性化 PageRank 技巧近似，实现模型在数百万节点规模下的扩展，而不会产生过大开销。
更好的特征保留 – 对于欺诈检测、推荐系统或分子属性预测等对细微节点差异敏感的应用，ParaFormer 能保持判别性嵌入，而传统 Transformer 往往会使其模糊。
即插即用 – 开源库提供了可直接使用的 PyTorch 模块；已有使用 Graph Transformer 的流水线只需将 ParaFormerAttention 替换进去，代码改动极少。

局限性与未来工作

PageRank 近似成本 – 精确的 PageRank 在每层的时间复杂度为 O(|E|)；虽然作者使用了高效的近似方法，但对于极度动态的图（例如流式边）仍可能面临挑战。
超参数敏感性 – 传送概率和幂迭代次数需要适度调优，以在特定领域获得最佳性能。
理论范围 – 当前分析聚焦于过平滑；其他 transformer 病理（例如在高度规则图上的注意力崩塌）仍未探讨。

作者暗示的未来方向包括将自适应滤波器概念扩展到异构图、集成学习的传送概率，以及为 PageRank 步骤探索硬件感知的优化。

作者

Chaohao Yuan
Zhenjie Song
Ercan Engin Kuruoglu
Kangfei Zhao
Yang Liu
Deli Zhao
Hong Cheng
Yu Rong

论文信息

arXiv ID: 2512.14619v1
分类: cs.LG
出版时间: 2025年12月16日
PDF: 下载 PDF

[Paper] ParaFormer：一种通用的 PageRank 图 Transformer，用于图表示学习

概述

关键贡献

方法论

Results & Findings

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构