[Paper] GraphLeap：解耦图构建与卷积以实现 Vision GNN 在 FPGA 上的加速

发布: 1天前 (2026年4月23日 GMT+8 13:09)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21290v1

概述

本文提出 GraphLeap，一种通过打破图构建与卷积之间的紧密耦合来显著加速视觉图神经网络（ViGs）的方法。通过在构建 k‑nearest‑neighbor (kNN) 图时“前瞻”一层，作者能够将图构建与特征更新重叠，并将整个流水线映射到 FPGA 上，实现的实时推理速度远超 CPU 和 GPU 基准。

关键贡献

解耦图构建 – 引入一种单层前瞻方案，在对第 ℓ 层进行消息传递的同时构建第 ℓ + 1 层的图，消除顺序瓶颈。
FPGA 加速器架构 – 设计一种流式、层级流水线的加速器，将 kNN 引擎与特征更新引擎紧密耦合，利用节点和通道级并行性，而无需生成完整的边特征张量。
保持精度的微调 – 表明使用过时特征导致的轻微精度下降可以通过少量 epoch 的轻量级微调恢复。
全面评估 – 在同轴和金字塔 ViG 模型上使用 Xilinx Alveo U280 板，展示相较于高性能 CPU 提升 95.7×，相较于现代 GPU 提升 8.5× 的加速效果。
首个端到端 ViG FPGA 解决方案 – 提供首个完整的视觉 GNN 推理硬件‑软件堆栈，包括 RTL 核心、主机驱动和高层次综合 (HLS) 工作流。

方法论

GraphLeap 重构 – 在传统的 ViG 中，每层 ℓ 首先在当前的 patch 嵌入上执行 kNN 搜索以生成图，然后在该图上进行消息传递。GraphLeap 颠倒了顺序：在层 ℓ 处理其消息的同时，硬件同步在 前一层 的嵌入上执行 kNN 搜索，以生成层 ℓ + 1 的图。这形成了一个图构建与卷积重叠的流水线。
硬件流水线设计
- kNN 引擎：实现一个距离计算树，流式处理 patch 特征并即时输出邻居索引。
- 消息传递引擎：读取邻居列表，在通道之间执行加权聚合（例如求和或注意力），使用同步阵列来利用通道并行性。
- 层级流水线：每个 ViG 层被实例化为独立的阶段；数据从一个阶段直接流向下一个阶段，无需中间 DRAM 写入，从而保持低延迟。
微调 – 在原始 ViG 训练完成后，作者将图构建调度替换为 GraphLeap，并在同一数据集上进行一次短时（≤ 5 个 epoch）微调，以弥补微小的精度差距。

结果与发现

平台	相对基线加速比	吞吐量（帧 / 秒）	Top‑1 准确率（Δ）
CPU (Xeon 3.0 GHz)	≈ 95.7×	12 fps (ViG‑S)	–0.3 %
GPU (RTX 3080)	≈ 8.5×	68 fps (ViG‑S)	–0.2 %
FPGA (Alveo U280)	—	85 fps (ViG‑S)	–0.2 %

图构建时间 从 CPU/GPU 上占总推理时间的 > 90 % 降至 FPGA 上的 < 10 %，得益于重叠流水线。
资源利用率 在 U280 上保持在 LUT 和 DSP 的 80 % 以下，为更大的 ViG 变体留下余量。
能效相比 GPU 提升约 6‑7 倍，使该方案在对功耗有要求的边缘或数据中心推理场景中具有吸引力。

实际影响

实时视觉应用（例如自主无人机、智能摄像头）现在可以利用 ViG 的自适应感受野，而不会牺牲延迟。
边缘部署：该 FPGA 设计可容纳于单块加速卡，免除多 GPU 或大型 CPU 的需求，并可集成到现有基于 PCIe 的推理服务器中。
框架集成：由于 GraphLeap 仅改变图构建的调度，现有的 PyTorch 或 TensorFlow ViG 模型只需少量代码修改即可迁移，随后进行简短的微调即可。
可扩展至更大图：O(N²) 的 kNN 开销通过流式架构得到缓解；开发者可以在仍满足实时约束的前提下，提高补丁分辨率（增加节点数）。

限制与未来工作

准确性权衡：前瞻方法依赖于略有陈旧的特征；虽然微调可以恢复大部分损失，但某些高度敏感的任务仍可能出现轻微下降。
硬件特定性：当前实现面向 Xilinx U280（Vitis HLS）。移植到其他 FPGA 系列或 ASIC 将需要重新设计 kNN 引擎的存储层次结构。
动态批量大小：流水线假设每帧使用固定批量大小；处理可变大小的批次或多流输入需要额外的控制逻辑。
扩展到其他 GNN 核心：GraphLeap 侧重于基于 kNN 的 ViGs；未来工作可以探索针对注意力型或谱式 GNN 的解耦策略，并结合量化或剪枝以实现更高的效率。

作者

Anvitha Ramachandran
Dhruv Parikh
Viktor Prasanna

论文信息

arXiv ID: 2604.21290v1
分类: cs.CV, cs.DC
出版日期: 2026年4月23日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 观察快与慢：学习视频中的时间流动

我们如何判断一个视频是被加速还是减速的？我们如何生成不同速度的视频？虽然视频已经成为现代通信的核心……

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

理解人类活动及其周围环境通常依赖视觉感知，但摄像头在隐私、安全方面仍然带来持续的挑战，...

[Paper] Vista4D：视频重新拍摄与4D点云

我们提出了 Vista4D，一个稳健且灵活的视频再拍摄框架，将输入视频和目标摄像机定位在 4D 点云中。具体而言，给定一个…

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

尽管大型视觉语言模型（LVLMs）的能力取得了令人印象深刻的进展，这些系统仍然容易出现幻觉，即输出是 n...