[Paper] 神经网络到空间加速器的进化映射

发布: 4天前 (2026年2月5日 GMT+8 00:28)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.04717v1

请提供您希望翻译的具体文本内容（例如摘要、引言或全文），我将按照要求把它翻译成简体中文，并保留原始的格式、Markdown 语法以及技术术语。谢谢！

概览

本文提出了一种进化式硬件‑在‑环框架，能够自动将神经网络图映射到如 Intel Loihi 2 等空间加速器上。通过将映射问题视为黑箱优化任务，作者消除了对手工制作、硬件特定启发式方法的需求，在真实神经形态芯片上实现了最高35 % 更低的延迟和40 % 更好的能效。

关键贡献

首个进化映射框架，在优化过程中直接与神经形态硬件交互（硬件在环）。
黑箱形式化的映射问题，使其对特定加速器架构保持中立。
在稀疏多层感知机（MLP）工作负载上，相较于厂商启发式方法，实现了 显著的延迟降低（最高达 35 %）。
展示了 能效提升（最高达 40 %），且并未专门针对功耗进行优化。
在 多芯片 Loihi 2 系统 上进行可扩展评估，证明该方法能够超越单芯片的限制。

方法论

问题定义 – 将神经网络计算图映射到二维计算‑存储核心网格的过程被表示为一个黑箱函数：给定一个候选放置方案，硬件返回延迟、能耗和资源利用率。
进化搜索 – 进化算法（EA）迭代地演化一组放置候选方案。标准的 EA 操作（选择、交叉、变异）被调整以遵守硬件约束（例如核心容量、通信带宽）。
硬件在环 – 不使用模拟器，而是将每个候选方案 在实际的 Loihi 2 芯片（或多芯片集群）上执行，以获取真实的性能指标。这消除了建模误差，并捕捉诸如路由争用等细微硬件效应。
适应度评估 – 主要目标是总推理延迟；次要目标（能耗、内存使用）通过加权的多目标得分纳入。
终止条件 – 当硬件评估预算用尽或性能提升趋于平稳时，EA 停止并返回找到的最佳映射。

结果与发现

Benchmark	Baseline (vendor heuristic)	Evolutionary Mapping	Latency Reduction	Energy Improvement
Sparse MLP‑A (4 layers)	12.8 ms	8.3 ms	35 %	~30 %
Sparse MLP‑B (6 layers)	19.5 ms	13.7 ms	30 %	~40 %
Multi‑chip scaling (2 × Loihi 2)	22.1 ms	15.0 ms	32 %	~38 %

延迟提升源于将大量通信的神经元更好地放置到相邻核心上，减少跳数和争用。
能耗提升作为副作用出现：核心间消息减少，执行时间缩短，降低动态功耗。
进化算法（EA）在几百次硬件评估内收敛，考虑到 Loihi 2 上快速的推理周期，这在实际中是可行的。

实际影响

开发者生产力 – 工程师可以将高级模型（例如 ONNX）输入框架，并在不深入了解 Loihi 网格拓扑的情况下获得优化的硬件映射。
可移植性 – 由于该方法将加速器视为黑盒，同一流水线可以以最小的改动面向未来的空间芯片（例如其他神经形态或内存计算结构）。
边缘部署 – 更低的延迟和能耗直接转化为更长的电池寿命和更高的吞吐量，适用于依赖神经形态处理器的边缘 AI 设备。
工具链集成 – 该框架可以封装为现有机器学习编译器（TVM、Glow）的插件，实现端到端的自动化部署流水线。

限制与未来工作

硬件评估成本 – 虽然在 Loihi 2 上可行，但需要在真实硅片上运行每个候选会成为更大搜索空间或较慢设备的瓶颈。
基准范围 – 实验聚焦于稀疏 MLP；扩展到卷积、循环或 transformer 模型可能会出现新的挑战。
多目标优化 – 能耗仅被间接优化；专门的 Pareto 前沿方法可以让开发者对延迟与能耗的权衡拥有更细粒度的控制。
泛化能力 – 进化算子针对 Loihi 的二维网格进行调优；未来工作应探索能够自动适应任意互连拓扑的自适应算子。

底线：通过将进化搜索与直接硬件反馈相结合，这项工作为在空间加速器上 免人工、高性能部署 神经网络铺平了道路——这是将神经形态硬件打造为 AI 开发者主流工具的激动人心的一步。

作者

Alessandro Pierro
Jonathan Timcheck
Jason Yik
Marius Lindauer
Eyke Hüllermeier
Marcel Wever

论文信息

arXiv ID: 2602.04717v1
分类: cs.NE
出版时间: 2026年2月4日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中，我们提出了一种对 PInv 的自然推广……

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要，但由于 catastrophic forgetting 等挑战仍然困难。

[Paper] 从透视描述预测相机姿态用于空间推理

多图像空间推理仍然是当前多模态大语言模型（MLLMs）的挑战。虽然单视角感知本质上是二维的，推理……

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

由提示的大型语言模型构建的多代理系统可以提升多轮推理能力，然而大多数现有的流水线依赖于固定的、跨轨迹的通信……