[Paper] 高性能 Serverless 计算:关于面向 HPC、AI 和 Big Data 的 Serverless 的系统文献综述
发布: (2026年1月14日 GMT+8 18:10)
8 min read
原文: arXiv
Source: arXiv - 2601.09334v1
(请提供需要翻译的正文内容,我将为您翻译成简体中文。)
概述
本文综述了无服务器计算与高性能计算(HPC)、人工智能(AI)以及大数据工作负载交叉的快速增长领域。通过系统性地回顾 2018‑2025 年的 122 篇文章,作者绘制了“函数即服务”模型如何被适配以在云、HPC 和混合基础设施上运行计算密集型、并行作业的图谱。
关键贡献
- 全面的系统文献综述 (SLR),涵盖 122 篇经同行评审的论文,提供了服务器无状态计算在 HPC/AI/大数据领域的最新全景。
- 研究方向分类法:八大主要类别(例如运行时优化、数据局部性、调度、安全、编程模型、资源供给、混合编排和性能基准测试)。
- 用例分类法:九个领域,包括科学仿真、深度学习训练/推理、图分析、流处理以及大规模 ETL 流水线。
- 趋势分析:可视化出版物高峰、 emerging 子领域以及跨学科合作的增长。
- 合作网络映射:识别关键研究集群、具有影响力的作者和推动该领域发展的机构。
- 实用指南:为希望在计算密集型工作负载中采用服务器无状态计算的工程师提炼最佳实践建议。
方法论
- 搜索策略 – 作者在主要数字图书馆(IEEE Xplore、ACM DL、Scopus、arXiv)中使用精心挑选的关键词列表(例如 “serverless”、 “FaaS”、 “HPC”、 “AI”、 “big data”)进行检索。
- 纳入/排除标准 – 论文必须 (a) 将 serverless 作为主要执行模型,(b) 针对计算密集型工作负载,且 (c) 提供实证结果或扎实的概念框架。非英文论文、教程以及纯云端案例研究被过滤掉。
- 数据提取 – 对每篇入选文章,团队记录元数据(年份、会议/期刊、作者)、研究目标、架构选择、性能指标以及报告的挑战。
- 综合分析 – 通过定性编码,作者将论文聚类为若干主题组,然后构建两个分类体系(研究方向 & 用例领域)。使用文献计量工具(VOSviewer)生成合作网络图和趋势图。
该过程遵循标准的系统文献综述(SLR)指南(Kitchenham & Charters),以确保可重复性并最大限度降低偏差。
结果与发现
| 发现 | 含义 |
|---|---|
| 快速增长 – 年度出版物从 2018 年的 <5 篇增长到 2024 年的 >30 篇。 | 社区正迅速将无服务器视为可行的 HPC/AI 平台。 |
| 混合编排占主导 – 38 % 的论文聚焦于将云 FaaS 与传统 HPC 调度器(如 Slurm、PBS)桥接。 | 实际部署需要与现有 HPC 集群无缝集成。 |
| 性能瓶颈 – 冷启动延迟和有限的 GPU/FPGA 访问仍是主要挑战。 | 优化函数初始化并提供加速器是关键的研究方向。 |
| 数据本地性重要 – 62 % 的成功原型将存储与计算共置(例如使用对象存储触发器)。 | 减少数据移动对于扩展 AI 训练和大数据分析至关重要。 |
| 编程模型演进 – 新的 DSL 和对现有框架(如 PyWren、CloudBurst)的扩展正在出现,以表达并行性。 | 开发者可以编写熟悉的 Python/Scala 代码,而运行时负责函数分片。 |
| 安全性与多租户隔离 – 仅有 15 % 的研究涉及 HPC 工作负载的隔离保证。 | 对于敏感科学数据,缺乏稳健的安全模型。 |
实际影响
- 针对云原生 AI 工程师 – Serverless 可以卸载突发的推理工作负载,自动扩展 GPU 函数,并且相较于管理虚拟机或容器降低运维开销。
- 针对 HPC 管理员 – 混合编排层使现有批处理系统能够在不重新构建作业脚本的情况下利用弹性云资源的突发能力。
- 针对数据工程师 – 事件驱动的流水线(例如 Kafka → Lambda → S3)现在可以通过函数并行性加入大量转换(例如 map‑reduce、图处理)。
- 成本优化 – 按使用付费的计费方式与不规则的科学工作负载高度匹配,结合 Spot 实例或抢占式函数提供时,可能降低总体拥有成本。
- 工具路线图 – 该分类法突显了工具成熟的领域(例如基于 Python 的 FaaS SDK)以及仍存不足的方面(例如 GPU 感知调度器、安全的多租户数据流水线)。
开发者可以开始尝试开源的无服务器运行时(OpenFaaS、Knative),这些运行时提供底层资源控制,亦可使用已支持 GPU 的托管服务(AWS Lambda GPU、Azure Functions 在 N 系列上)。
限制与未来工作
- 文献范围 – 本综述仅包含截至2025年初的论文;快速发布的预印本和行业白皮书可能未被充分覆盖。
- 实证深度 – 虽然系统性文献综述汇总了报告的指标,但未重新运行实验,因此跨论文的性能比较可能受到硬件和基准设置差异的影响。
- 安全关注 – 作者指出在高性能计算数据的隔离和合规性方面研究不足;未来研究应在无服务器环境中探索沙箱、可信证明和机密计算。
- 标准化 – 该领域缺乏统一的 API 来暴露加速器和高速互连;建立开放标准有助于加速采用。
作者呼吁开展更多跨学科合作,制定针对无服务器高性能计算的基准套件,并深入研究边缘环境中对时延敏感的 AI 推理。
作者
- Valerio Besozzi
- Matteo Della Bartola
- Patrizio Dazzi
- Marco Danelutto
论文信息
- arXiv ID: 2601.09334v1
- 分类: cs.DC, cs.LG
- 发布日期: 2026年1月14日
- PDF: 下载 PDF