[Paper] GraphBench: 下一代图学习基准测试

发布: 2个月前 (2025年12月4日 GMT+8 13:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04475v1

Overview

GraphBench 是一个全新的开源基准套件，旨在为混乱的图机器学习（GML）评估环境带来秩序。通过统一数据集、划分、指标以及超参数调优，覆盖节点、边、图级以及生成任务，提供给开发者一个可复现的统一平台，用于测试和比较 GML 模型——从经典的消息传递网络到最新的图 Transformer。

数据集整理 – 作者收集了 30+ 公开可用的图数据集，涵盖化学（如 OGB‑MolPCBA）、社交媒体（如 Reddit）、推荐系统（如 MovieLens）和硬件设计（如电路网表）。每个数据集都被预处理为统一格式（边列表 + 节点/边特征）。
任务定义 – 对每个数据集定义相应的预测任务（节点分类、链接预测、图分类或图生成）。套件会自动通过时间或结构扰动生成 OOD 划分，以检验模型的泛化能力。
评估协议 – 所有实验使用相同的随机种子、提前停止准则和评估指标。结果以 5 次运行的均值 ± 标准差报告。
超参数搜索 – 轻量级贝叶斯优化器（Tree‑structured Parzen Estimator）对每个模型‑数据集对进行固定预算（如 50 次试验）的搜索，搜索空间包括学习率、隐藏维度、dropout 和层数。最佳配置随后在测试集上评估。
基线模型 – 实现了两大模型族：(a) 经典 MPNN（GCN、GAT、GraphSAGE）和 (b) 图 Transformer（GT、SAN）。两者均使用相同的优化器（AdamW）和针对任务的损失函数进行训练。

性能差距 – 在具有长程依赖的任务上（如 OGB‑MolPCBA 的分子属性预测），图 Transformer 始终优于 MPNN；但在高度局部的任务上（如引用网络的节点分类），提升有限。
OOD 鲁棒性 – 采用统一协议调优的模型在 OOD 划分上准确率下降 10‑15 %，凸显评估超出随机划分的泛化重要性。
超参数敏感性 – 自动搜索显示学习率和网络深度是所有任务中最关键的超参数，而 dropout 主要影响生成模型。
可复现性 – 所有基线结果均可通过单条命令 (graphbench run <model> <dataset>) 复现，报告的方差较低（大多数回归任务 MAE ≤ 0.02）。

Ready to try it out? Visit the live demo at www.graphbench.io and start benchmarking your next graph‑learning model today.