[Paper] 通过主动存储系统在计算连续体上卸载人工智能工作负载

发布: 2个月前 (2025年12月2日 GMT+8 19:04)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.02646v1

概览

本文研究了 active storage systems——能够运行代码的存储设备——如何用于在整个 computing continuum（边缘、雾层和云）上分布 AI 训练和推理任务。通过将工作负载的部分直接移动到数据所在的位置，作者展示了在内存使用、训练速度和整体资源效率方面的可衡量提升，同时保持了对数据科学家的低门槛。

关键贡献

Continuum‑aware 软件架构，能够在异构设备（边缘、雾层、云）之间调度 AI 工作负载的放置。
将 active storage（dataClay）与流行的 Python AI 库（如 PyTorch、TensorFlow）集成，实现“compute‑in‑storage”，无需重写模型。
全面评估了内存占用、存储开销、训练时间和准确率，使用了一组代表性的 AI 任务（图像分类、时间序列预测）。
开源原型，展示了开发者将流水线部分卸载到存储节点的实用、低成本路径。
权衡分析，量化了何时 active‑storage 卸载有利，何时传统云执行仍更可取。

方法论

中间件层设计——一个轻量的 Python 包装器，拦截数据访问调用，并根据策略（如数据大小、设备能力）决定在本地、邻近存储节点或云端执行计算。
Active storage 平台（dataClay）——作者在 dataClay 上扩展了自定义 “service objects”，将 AI 原语（张量操作、mini‑batch 训练循环）公开为远程可调用方法。
基准套件——选取三种常见 AI 工作负载（CIFAR‑10 上的 ResNet‑18、合成传感器流上的 LSTM、以及一个小型 GNN），在三种配置下运行：(a) 纯云，(b) 仅边缘，(c) 带有 active‑storage 的连续体。
指标收集——记录每次运行的内存消耗（计算节点峰值 RAM）、存储 I/O 量、实际训练时间以及最终模型准确率。
策略评估——将简单启发式（如 “如果输入批次 > 64 MiB 则卸载”）与更复杂的成本模型（考虑网络延迟和存储 CPU 负载）进行比较。

结果与发现

Configuration	Peak RAM (MiB)	Training Time (min)	Storage I/O (GB)	Accuracy
Cloud only	3,200	45	12.8	92.1 %
Edge only	1,800	68	9.5	91.8 %
Active‑Storage Continuum	1,200	32	8.3	92.0 %

内存降低：将数据预处理和早期卷积层卸载到存储，可将计算节点所需的 RAM 减少约 60 %。
训练速度提升：整体壁钟时间提升约 30 %，因为存储节点在原位处理数据，消除了重复的网络传输。
准确率影响：几乎没有下降（<0.3 %），证明迁移计算不会削弱模型质量。
可扩展性：增加存储节点数量可线性降低训练时间，但在超过 4 台节点后，网络争用抵消了收益。

实际意义

对 ML 工程师：只需使用提供的 Python SDK 包装数据加载器，即可在保持现有 PyTorch/TensorFlow 代码库的前提下获得 active‑storage 效益，无需重写模型。
面向边缘的部署：内存受限的设备（如 IoT 网关）现在可以通过将重型张量操作委托给附近的 NVMe‑based 存储设备（这些设备公开计算内核）来运行更大的模型。
成本优化：减少数据移动可降低带宽费用，并减轻云计算实例的压力，使 “按需付费” 的 AI 流水线更具经济性。
快速原型：由于架构基于主流 Python 库，数据科学家可以在不担心底层硬件拓扑的情况下尝试新算法。
供应商相关性：嵌入 GPU/TPU 或 FPGA 加速器的存储供应商可以通过提供 “AI‑ready” API 层来实现产品差异化，开辟新的收入渠道。

局限性与未来工作

硬件依赖：收益依赖于能够提供足够计算资源的存储节点（如具备 SIMD 的 CPU、可选的 GPU）。低端 SATA 硬盘无法获得相同的优势。
调度简易性：当前策略引擎使用启发式方法；更复杂的调度器（基于强化学习或 QoS 感知）可能更好地处理动态工作负载。
安全与隔离：在存储内部执行用户代码会引发沙箱和多租户隔离的担忧，原型并未完全解决此问题。
更广泛的工作负载：实验聚焦于相对较小的模型；扩展到大规模 transformer 类网络可能会暴露新的瓶颈（如存储 CPU 的内存带宽）。
标准化：作者建议扩展新兴标准（如 OpenCAPI、NVMe‑OF）以正式化 compute‑in‑storage API，这是他们计划进一步探索的方向。

作者

Alex Barceló
Sebastián A. Cajas Ordoñez
Jaydeep Samanta
Andrés L. Suárez-Cetrulo
Romila Ghosh
Ricardo Simón Carbajo
Anna Queralt

论文信息

arXiv ID: 2512.02646v1
Categories: cs.DC
Published: December 2, 2025
PDF: Download PDF

[Paper] 通过主动存储系统在计算连续体上卸载人工智能工作负载

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Metronome：差异化延迟调度用于 Serverless Functions

[Paper] 公交车上安装的 Edge 服务器可行吗？

[Paper] 编译器支持的低精度和 AoS-SoA 转换用于异构硬件

[Paper] FedGMR：在异步和模型异构性下的渐进模型恢复联邦学习