[Paper] GraphBench: 下一代图学习基准测试

发布: (2025年12月4日 GMT+8 13:30)
7 min read
原文: arXiv

Source: arXiv - 2512.04475v1

Overview

GraphBench 是一个全新的开源基准套件,旨在为混乱的图机器学习(GML)评估环境带来秩序。通过统一数据集、划分、指标以及超参数调优,覆盖节点、边、图级以及生成任务,提供给开发者一个可复现的统一平台,用于测试和比较 GML 模型——从经典的消息传递网络到最新的图 Transformer。

Key Contributions

  • 统一的基准集合,涵盖多个领域(如化学、社交网络、芯片设计)以及四大任务族(节点、边、图、生成)。
  • 标准化的评估协议,包括固定的训练/验证/测试划分、分布外(OOD)测试集,以及统一的性能指标(准确率、ROC‑AUC、MAE 等)。
  • 集成的超参数调优框架,为每个模型‑数据集对执行公平的自动搜索,消除“手动调参”带来的偏差。
  • 参考基线,包括消息传递神经网络(MPNN)和图 Transformer 架构,配备可复现的训练脚本和日志。
  • 可扩展的设计,社区可以在保持核心评估保证的前提下添加新数据集、任务或模型族。

Methodology

  1. 数据集整理 – 作者收集了 30+ 公开可用的图数据集,涵盖化学(如 OGB‑MolPCBA)、社交媒体(如 Reddit)、推荐系统(如 MovieLens)和硬件设计(如电路网表)。每个数据集都被预处理为统一格式(边列表 + 节点/边特征)。
  2. 任务定义 – 对每个数据集定义相应的预测任务(节点分类、链接预测、图分类或图生成)。套件会自动通过时间或结构扰动生成 OOD 划分,以检验模型的泛化能力。
  3. 评估协议 – 所有实验使用相同的随机种子、提前停止准则和评估指标。结果以 5 次运行的均值 ± 标准差报告。
  4. 超参数搜索 – 轻量级贝叶斯优化器(Tree‑structured Parzen Estimator)对每个模型‑数据集对进行固定预算(如 50 次试验)的搜索,搜索空间包括学习率、隐藏维度、dropout 和层数。最佳配置随后在测试集上评估。
  5. 基线模型 – 实现了两大模型族:(a) 经典 MPNN(GCN、GAT、GraphSAGE)和 (b) 图 Transformer(GT、SAN)。两者均使用相同的优化器(AdamW)和针对任务的损失函数进行训练。

Results & Findings

  • 性能差距 – 在具有长程依赖的任务上(如 OGB‑MolPCBA 的分子属性预测),图 Transformer 始终优于 MPNN;但在高度局部的任务上(如引用网络的节点分类),提升有限。
  • OOD 鲁棒性 – 采用统一协议调优的模型在 OOD 划分上准确率下降 10‑15 %,凸显评估超出随机划分的泛化重要性。
  • 超参数敏感性 – 自动搜索显示学习率和网络深度是所有任务中最关键的超参数,而 dropout 主要影响生成模型。
  • 可复现性 – 所有基线结果均可通过单条命令 (graphbench run <model> <dataset>) 复现,报告的方差较低(大多数回归任务 MAE ≤ 0.02)。

Practical Implications

  • 加速模型开发 – 开发者只需将自己的 GNN 实现接入 GraphBench,即可在不构建自定义数据管道的情况下与最先进基线进行公平比较。
  • 更好的泛化检查 – 内置的 OOD 划分鼓励团队测试模型在图结构漂移时的表现(例如新芯片设计或新兴社交网络)。
  • 基于基准的招聘与采购 – 企业可以使用标准化分数对供应商提供的 GNN 方案进行基准评估,使采购决策更加数据驱动。
  • 加速科研向产品的转化 – 通过提供统一的性能真相来源,GraphBench 减少了常见的“基准游戏”开销,从而加快 GNN 在生产环境的落地。

Limitations & Future Work

  • 数据集覆盖度 – 虽然已相当多样,但当前套件仍缺少大规模动态图(如流式社交信息)和多模态图数据(如视觉‑语言图)。
  • 计算预算 – 默认的超参数预算(≈ 50 次试验)可能不足以充分评估非常深的 Transformer 变体,可能低估其真实性能。
  • 生成任务评估 – 图生成的指标(如 Fréchet Graph Distance)仍在发展中,作者指出需要更稳健、任务特定的度量。
  • 未来方向 – 作者计划加入基于强化学习的图构建任务,扩展 OOD 划分策略,并集成硬件加速训练流水线(如 GPU‑TensorRT、IPU)。

Ready to try it out? Visit the live demo at www.graphbench.io and start benchmarking your next graph‑learning model today.

Authors

  • Timo Stoll
  • Chendi Qian
  • Ben Finkelshtein
  • Ali Parviz
  • Darius Weber
  • Fabrizio Frasca
  • Hadar Shavit
  • Antoine Siraudin
  • Arman Mielke
  • Marie Anastacio
  • Erik Müller
  • Maya Bechler‑Speicher
  • Michael Bronstein
  • Mikhail Galkin
  • Holger Hoos
  • Mathias Niepert
  • Bryan Perozzi
  • Jan Tönshoff
  • Christopher Morris

Paper Information

  • arXiv ID: 2512.04475v1
  • Categories: cs.LG, cs.AI, cs.NE, stat.ML
  • Published: December 4, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »