[Paper] 将计算带到数据上:在 SRCNet 中实现可互操作的 serverless function execution 用于天体物理数据分析

发布: (2026年1月12日 GMT+8 16:31)
6 min read
原文: arXiv

Source: arXiv - 2601.07308v1

概述

本文研究了如何将 serverless Function‑as‑a‑Service (FaaS) 融入 Square Kilometre Array Regional Centre Network (SRCNet),使天文学家能够在 数据所在的位置 运行代码。通过在存放 petabytes 级射电天文数据的存储站点上直接部署小型、按需函数,作者展示了一条应对 SKA 预计每年 700 PB / year 数据洪流的路径。

关键贡献

  • 为联邦 SRCNet 基础设施设计可互操作的 FaaS 层
  • 原型微函数(例如,高斯卷积例程),基于现有科学库构建并封装为无服务器单元。
  • 集成工作流,在持有所需数据副本的同一节点上注册、发现并触发函数。
  • 性能评估,展示了数据移动减少、延迟降低以及跨多个区域中心的弹性扩展。
  • 指南和最佳实践建议,用于将该方法扩展到其他天体物理流水线。

方法论

  1. 需求分析 – 作者将典型的射电天文学处理步骤(校准、成像、源检测)映射为可表达为独立函数的计算密集型内核。
  2. 无服务器平台选择 – 他们利用开源的 FaaS 运行时(OpenFaaS),可以部署在每个 SRCNet 站点已有的 Kubernetes 集群上。
  3. 函数开发 – 创建了两类函数:
    • 微函数,调用低层库(例如 NumPy、SciPy)进行简单变换。
    • 包装函数,在薄 API 之下封装传统领域工具(例如 CASA、WSClean)。
  4. 数据邻近执行模型 – 轻量注册服务跟踪每个数据块所在位置;当用户请求计算时,调度器选择最近的中心并在其上启动函数。
  5. 基准测试 – 在三个具有不同数据本地性的 SRCNet 节点上运行高斯卷积用例,测量执行时间、网络流量和资源使用情况。

结果与发现

指标集中式(数据迁移)无服务器,数据就近
端到端延迟~12 秒~4.5 秒(≈ 降低62 %)
每作业网络 I/O1.2 GB0.3 GB(≈ 节省75 %)
峰值 CPU 使用率8 vCPU(单节点)每节点 2 vCPU,自动在 3 节点间扩展
成本(云等价)每作业 $0.18每作业 $0.07

实验确认,在数据所在位置运行函数可以大幅削减传输开销和实际耗时,而无服务器模型会为每个请求自动配置恰当的计算资源。原型还证明在 SRCNet 各站点的异构硬件和软件堆栈之间具有互操作性。

实际意义

  • 开发者: 一个将现有科学脚本转换为可移植无服务器函数的具体方案,使得无需重新构建整个流水线即可快速原型化。
  • 天文台和数据中心: 将 FaaS 嵌入联邦网络可以推迟昂贵的数据复制,降低 WAN 带宽需求,并提升交互式分析工具的用户体验。
  • 成本优化: 按需付费的资源分配几乎消除了闲置计算资源,是预算受限的研究基础设施的有吸引力模型。
  • 可扩展性: 包装器方法使得传统的重量级工具能够以轻量级服务的形式暴露,促进向现代云原生工作流的逐步迁移。
  • 跨领域相关性: 任何面临“将计算带到数据”挑战的学科(例如基因组学、气候建模)都可以采用相同的模式,利用此处展示的开源技术栈。

限制与未来工作

  • Cold‑start latency:Serverless 函数仍然会产生几百毫秒的启动时间,对于超低延迟的使用场景可能会显著。
  • Resource heterogeneity:并非所有 SRCNet 站点都具备相同的 GPU 或 FPGA 能力;当前原型假设了 CPU 环境的同质性。
  • Security & sandboxing:在敏感数据附近运行用户提供的代码会引发隔离问题,需要更严格的策略执行。
  • Workflow orchestration:本研究聚焦于单一函数;将其扩展到复杂的多步骤流水线时,需要与 FaaS 层集成的可靠编排(例如 DAG 引擎)。

未来工作包括将函数目录扩展到校准和成像阶段,增加对 GPU 加速内核的支持,以及为跨 SRCNet 联盟的多租户执行制定安全模型。

作者

  • Manuel Parra‑Royón
  • Julián Garrido‑Sánchez
  • Susana Sánchez‑Expósito
  • María Ángeles Mendoza
  • Rob Barnsley
  • Anthony Moraghan
  • Jesús Sánchez
  • Laura Darriba
  • Carlos Ruíz‑Monje
  • Edgar Joao
  • Javier Moldón
  • Jesús Salgado
  • Lourdes Verdes‑Montenegro

论文信息

  • arXiv ID: 2601.07308v1
  • 分类: cs.DC, astro-ph.IM
  • 发表时间: 2026年1月12日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »