[Paper] 高性能 Serverless 计算：关于面向 HPC、AI 和 Big Data 的 Serverless 的系统文献综述

发布: 3周前 (2026年1月14日 GMT+8 18:10)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.09334v1

（请提供需要翻译的正文内容，我将为您翻译成简体中文。）

概述

本文综述了无服务器计算与高性能计算（HPC）、人工智能（AI）以及大数据工作负载交叉的快速增长领域。通过系统性地回顾 2018‑2025 年的 122 篇文章，作者绘制了“函数即服务”模型如何被适配以在云、HPC 和混合基础设施上运行计算密集型、并行作业的图谱。

搜索策略 – 作者在主要数字图书馆（IEEE Xplore、ACM DL、Scopus、arXiv）中使用精心挑选的关键词列表（例如 “serverless”、 “FaaS”、 “HPC”、 “AI”、 “big data”）进行检索。
纳入/排除标准 – 论文必须 (a) 将 serverless 作为主要执行模型，(b) 针对计算密集型工作负载，且 (c) 提供实证结果或扎实的概念框架。非英文论文、教程以及纯云端案例研究被过滤掉。
数据提取 – 对每篇入选文章，团队记录元数据（年份、会议/期刊、作者）、研究目标、架构选择、性能指标以及报告的挑战。
综合分析 – 通过定性编码，作者将论文聚类为若干主题组，然后构建两个分类体系（研究方向 & 用例领域）。使用文献计量工具（VOSviewer）生成合作网络图和趋势图。

该过程遵循标准的系统文献综述（SLR）指南（Kitchenham & Charters），以确保可重复性并最大限度降低偏差。

发现	含义
快速增长 – 年度出版物从 2018 年的 <5 篇增长到 2024 年的 >30 篇。	社区正迅速将无服务器视为可行的 HPC/AI 平台。
混合编排占主导 – 38 % 的论文聚焦于将云 FaaS 与传统 HPC 调度器（如 Slurm、PBS）桥接。	实际部署需要与现有 HPC 集群无缝集成。
性能瓶颈 – 冷启动延迟和有限的 GPU/FPGA 访问仍是主要挑战。	优化函数初始化并提供加速器是关键的研究方向。
数据本地性重要 – 62 % 的成功原型将存储与计算共置（例如使用对象存储触发器）。	减少数据移动对于扩展 AI 训练和大数据分析至关重要。
编程模型演进 – 新的 DSL 和对现有框架（如 PyWren、CloudBurst）的扩展正在出现，以表达并行性。	开发者可以编写熟悉的 Python/Scala 代码，而运行时负责函数分片。
安全性与多租户隔离 – 仅有 15 % 的研究涉及 HPC 工作负载的隔离保证。	对于敏感科学数据，缺乏稳健的安全模型。

针对云原生 AI 工程师 – Serverless 可以卸载突发的推理工作负载，自动扩展 GPU 函数，并且相较于管理虚拟机或容器降低运维开销。
针对 HPC 管理员 – 混合编排层使现有批处理系统能够在不重新构建作业脚本的情况下利用弹性云资源的突发能力。
针对数据工程师 – 事件驱动的流水线（例如 Kafka → Lambda → S3）现在可以通过函数并行性加入大量转换（例如 map‑reduce、图处理）。
成本优化 – 按使用付费的计费方式与不规则的科学工作负载高度匹配，结合 Spot 实例或抢占式函数提供时，可能降低总体拥有成本。
工具路线图 – 该分类法突显了工具成熟的领域（例如基于 Python 的 FaaS SDK）以及仍存不足的方面（例如 GPU 感知调度器、安全的多租户数据流水线）。

开发者可以开始尝试开源的无服务器运行时（OpenFaaS、Knative），这些运行时提供底层资源控制，亦可使用已支持 GPU 的托管服务（AWS Lambda GPU、Azure Functions 在 N 系列上）。

作者呼吁开展更多跨学科合作，制定针对无服务器高性能计算的基准套件，并深入研究边缘环境中对时延敏感的 AI 推理。