[Paper] ParaFormer:一种通用的 PageRank 图 Transformer,用于图表示学习

发布: (2025年12月17日 GMT+8 01:30)
6 min read
原文: arXiv

Source: arXiv - 2512.14619v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

概述

本文介绍了 ParaFormer,一种新颖的图 Transformer,解决了深层图神经网络(GNN)和早期图 Transformer 都面临的著名的过平滑问题。通过在 Transformer 架构中嵌入基于 PageRank 的注意力机制,作者实现了一个既能保持判别性节点特征,又能捕获长程依赖的模型——在广泛的图学习基准上实现了持续的性能提升。

关键贡献

  • PageRank‑enhanced attention: 一种新的注意力公式,模拟深层 Transformer 行为,同时充当自适应通滤波器,以抑制过度平滑。
  • Theoretical analysis: 形式化证明所提出的注意力表现为具有可控带宽的低通滤波器,不同于普通全局注意力会导致节点表示塌陷。
  • Extensive empirical validation: 在 11 个节点和图分类数据集上取得最先进的结果,规模从几千到数百万节点不等。
  • Open‑source implementation: 完整代码库和可复现脚本已在 GitHub 上发布,便于快速采用和进一步研究。

方法论

  1. 问题诊断 – 作者首先展示了标准图 Transformer 中的全局自注意力表现为一种强力低通滤波器,导致节点嵌入变得难以区分(即过平滑效应)。
  2. PageRank 引导的注意力 – 他们用 PageRank 缩放 版本替代了普通的注意力分数。具体而言,每个节点的注意力权重会乘以其个性化 PageRank 分数,该分数反映了相对于查询节点的“中心性”。
  3. 自适应通滤波器设计 – 通过调节 PageRank 计算中的跳转(重启)概率,模型可以在保留高频(局部)信息和聚合低频(全局)上下文之间平滑切换。
  4. 集成到 Transformer 堆叠中 – 将增强的 PageRank 注意力嵌入标准的多头 Transformer 编码器,保留 Transformer 深度的所有优势(如表达能力、并行性),无需大量 GNN 层。

整体流程对开发者仍然熟悉:

input node features → linear projection → PageRank‑aware attention → feed‑forward network → stack → readout (node‑ or graph‑level)

Results & Findings

任务数据集(规模)基线(GNN/GT)ParaFormer提升
节点分类Cora, PubMed, ogbn‑arxiv(最多 2M 节点)GCN, GraphSAGE, vanilla Graph Transformer+3.2% – +7.5% accuracy在不同规模上保持一致
图分类MUTAG, PROTEINS, ZINC(最多 1M 图)GIN, Graphormer+2.1% – +5.8% ROC‑AUC更好地处理远程依赖

关键观察

  • ParaFormer 的性能差距在更大、更稀疏的图上更为显著,此时过平滑问题最为严重。
  • 消融实验表明,PageRank 缩放是提升的主要驱动因素;去除该模块后性能会回落到普通注意力的水平。
  • 敏感性分析显示,跳转概率可以针对不同数据集进行调节,但默认值(≈0.15)即开箱即用表现良好。

Practical Implications

  • 可扩展的图学习 – 开发者可以用更浅的 ParaFormer 编码器替代深层 GNN 堆叠,降低内存占用,同时仍能捕获全局上下文。
  • 对图规模的鲁棒性 – 由于 PageRank 计算可以通过快速幂迭代或个性化 PageRank 技巧近似,实现模型在数百万节点规模下的扩展,而不会产生过大开销。
  • 更好的特征保留 – 对于欺诈检测、推荐系统或分子属性预测等对细微节点差异敏感的应用,ParaFormer 能保持判别性嵌入,而传统 Transformer 往往会使其模糊。
  • 即插即用 – 开源库提供了可直接使用的 PyTorch 模块;已有使用 Graph Transformer 的流水线只需将 ParaFormerAttention 替换进去,代码改动极少。

局限性与未来工作

  • PageRank 近似成本 – 精确的 PageRank 在每层的时间复杂度为 O(|E|);虽然作者使用了高效的近似方法,但对于极度动态的图(例如流式边)仍可能面临挑战。
  • 超参数敏感性 – 传送概率和幂迭代次数需要适度调优,以在特定领域获得最佳性能。
  • 理论范围 – 当前分析聚焦于过平滑;其他 transformer 病理(例如在高度规则图上的注意力崩塌)仍未探讨。

作者暗示的未来方向包括将自适应滤波器概念扩展到异构图、集成学习的传送概率,以及为 PageRank 步骤探索硬件感知的优化。

作者

  • Chaohao Yuan
  • Zhenjie Song
  • Ercan Engin Kuruoglu
  • Kangfei Zhao
  • Yang Liu
  • Deli Zhao
  • Hong Cheng
  • Yu Rong

论文信息

  • arXiv ID: 2512.14619v1
  • 分类: cs.LG
  • 出版时间: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »