[Paper] 将计算带到数据上:在 SRCNet 中实现可互操作的 serverless function execution 用于天体物理数据分析
发布: (2026年1月12日 GMT+8 16:31)
6 min read
原文: arXiv
Source: arXiv - 2601.07308v1
概述
本文研究了如何将 serverless Function‑as‑a‑Service (FaaS) 融入 Square Kilometre Array Regional Centre Network (SRCNet),使天文学家能够在 数据所在的位置 运行代码。通过在存放 petabytes 级射电天文数据的存储站点上直接部署小型、按需函数,作者展示了一条应对 SKA 预计每年 700 PB / year 数据洪流的路径。
关键贡献
- 为联邦 SRCNet 基础设施设计可互操作的 FaaS 层。
- 原型微函数(例如,高斯卷积例程),基于现有科学库构建并封装为无服务器单元。
- 集成工作流,在持有所需数据副本的同一节点上注册、发现并触发函数。
- 性能评估,展示了数据移动减少、延迟降低以及跨多个区域中心的弹性扩展。
- 指南和最佳实践建议,用于将该方法扩展到其他天体物理流水线。
方法论
- 需求分析 – 作者将典型的射电天文学处理步骤(校准、成像、源检测)映射为可表达为独立函数的计算密集型内核。
- 无服务器平台选择 – 他们利用开源的 FaaS 运行时(OpenFaaS),可以部署在每个 SRCNet 站点已有的 Kubernetes 集群上。
- 函数开发 – 创建了两类函数:
- 微函数,调用低层库(例如 NumPy、SciPy)进行简单变换。
- 包装函数,在薄 API 之下封装传统领域工具(例如 CASA、WSClean)。
- 数据邻近执行模型 – 轻量注册服务跟踪每个数据块所在位置;当用户请求计算时,调度器选择最近的中心并在其上启动函数。
- 基准测试 – 在三个具有不同数据本地性的 SRCNet 节点上运行高斯卷积用例,测量执行时间、网络流量和资源使用情况。
结果与发现
| 指标 | 集中式(数据迁移) | 无服务器,数据就近 |
|---|---|---|
| 端到端延迟 | ~12 秒 | ~4.5 秒(≈ 降低62 %) |
| 每作业网络 I/O | 1.2 GB | 0.3 GB(≈ 节省75 %) |
| 峰值 CPU 使用率 | 8 vCPU(单节点) | 每节点 2 vCPU,自动在 3 节点间扩展 |
| 成本(云等价) | 每作业 $0.18 | 每作业 $0.07 |
实验确认,在数据所在位置运行函数可以大幅削减传输开销和实际耗时,而无服务器模型会为每个请求自动配置恰当的计算资源。原型还证明在 SRCNet 各站点的异构硬件和软件堆栈之间具有互操作性。
实际意义
- 开发者: 一个将现有科学脚本转换为可移植无服务器函数的具体方案,使得无需重新构建整个流水线即可快速原型化。
- 天文台和数据中心: 将 FaaS 嵌入联邦网络可以推迟昂贵的数据复制,降低 WAN 带宽需求,并提升交互式分析工具的用户体验。
- 成本优化: 按需付费的资源分配几乎消除了闲置计算资源,是预算受限的研究基础设施的有吸引力模型。
- 可扩展性: 包装器方法使得传统的重量级工具能够以轻量级服务的形式暴露,促进向现代云原生工作流的逐步迁移。
- 跨领域相关性: 任何面临“将计算带到数据”挑战的学科(例如基因组学、气候建模)都可以采用相同的模式,利用此处展示的开源技术栈。
限制与未来工作
- Cold‑start latency:Serverless 函数仍然会产生几百毫秒的启动时间,对于超低延迟的使用场景可能会显著。
- Resource heterogeneity:并非所有 SRCNet 站点都具备相同的 GPU 或 FPGA 能力;当前原型假设了 CPU 环境的同质性。
- Security & sandboxing:在敏感数据附近运行用户提供的代码会引发隔离问题,需要更严格的策略执行。
- Workflow orchestration:本研究聚焦于单一函数;将其扩展到复杂的多步骤流水线时,需要与 FaaS 层集成的可靠编排(例如 DAG 引擎)。
未来工作包括将函数目录扩展到校准和成像阶段,增加对 GPU 加速内核的支持,以及为跨 SRCNet 联盟的多租户执行制定安全模型。
作者
- Manuel Parra‑Royón
- Julián Garrido‑Sánchez
- Susana Sánchez‑Expósito
- María Ángeles Mendoza
- Rob Barnsley
- Anthony Moraghan
- Jesús Sánchez
- Laura Darriba
- Carlos Ruíz‑Monje
- Edgar Joao
- Javier Moldón
- Jesús Salgado
- Lourdes Verdes‑Montenegro
论文信息
- arXiv ID: 2601.07308v1
- 分类: cs.DC, astro-ph.IM
- 发表时间: 2026年1月12日
- PDF: 下载 PDF