[Paper] AI4EOSC:用于科学研究的人工智能联邦云平台
发布: (2025年12月18日 GMT+8 20:20)
8 min read
原文: arXiv
Source: arXiv - 2512.16455v1
Overview
本文介绍了 AI4EOSC,一个联邦云平台,它将多个欧洲电子基础设施站点整合在一起,为科学家提供一个统一且可复现的环境,覆盖整个 AI/ML 工作流——从交互式模型开发到在 GPU 上的大规模训练,再到跨云连续体的无缝部署。通过抽象底层的异构性,AI4EOSC 旨在使基于 AI 的研究更加透明、可移植且易于协作。
关键贡献
- 联邦架构 – 一个统一的服务层,聚合来自地理分布的 e‑Infrastructure 提供商的计算、存储和 AI 服务。
- 端到端机器学习生命周期支持 – 集成工具用于数据标注、实验追踪、GPU 加速训练、联邦学习以及多目标部署(边缘、云、HPC)。
- 可复现性与可追溯性 – 自动化的溯源捕获、基于容器的打包以及版本化模型注册表,确保实验可在各站点复现。
- 可扩展的服务目录 – 插件式模型提供者、数据集仓库和存储后端,允许社区根据领域需求定制平台。
- 用户友好界面 – 交互式开发环境(JupyterLab、VS Code Server)和网页仪表盘,隐藏底层联邦的复杂性。
- 开源参考实现 – 公开可用的代码库和部署脚本,演示如何在现有研究基础设施上启动平台。
方法论
作者在现有标准之上构建了 AI4EOSC(身份使用 OpenID Connect,授权使用兼容 OIDC 的 OAuth,以及欧洲开放科学云(EOSC)API)。平台由三个逻辑层组成:
- 联邦层 – 注册并监控远程站点,通过中心 broker 暴露计算(CPU/GPU)、存储和 AI 服务的统一目录。
- 编排层 – 使用带联邦扩展的 Kubernetes 调度容器、管理 GPU 分配,并强制执行策略(例如数据本地性、配额)。
- 用户体验层 – 提供基于 Web 的门户和 API,允许用户启动 Jupyter Notebook、提交训练作业、通过兼容 MLflow 的元数据跟踪实验,并通过无服务器函数或容器注册表部署模型。
团队在四个欧洲研究云的测试平台上评估了该平台,测量部署时间、作业周转时间以及跨站点的可重复性。同时,还与领域科学家开展了用户研究,以评估可用性。
结果与发现
- 部署一致性 – 完整的机器学习流水线(数据摄取 → 笔记本 → GPU 训练 → 模型注册表)可以在四个站点中的任意一个上复现,运行时间的变化不超过 5 %,验证了基于容器的隔离和联邦调度代理的有效性。
- 性能开销 – 额外的抽象层导致作业提交的延迟平均增加 2–3 %,数据传输增加 1 %,作者认为相较于可移植性的收益,这些开销可以忽略不计。
- 用户满意度 – 调查的研究人员报告称,环境搭建时间减少了 30 %,对结果可共享和可复现的信心提升了 25 %。
- 可扩展性 – 平台成功协调了跨三个站点的 8 块 GPU 同时训练作业,展示了联邦调度能够在没有瓶颈的情况下处理适度的多站点工作负载。
实际意义
- 加速 AI 研究 – 开发者可以专注于模型创新,而不是与异构云凭证、虚拟机镜像或 GPU 供应纠缠。
- 跨机构协作 – 分布在欧洲(或更广范围)团队可以共享笔记本和已训练模型,无需手动移动数据,促进可重复的科学研究。
- 成本效益资源利用 – 代理可以将作业路由到利用率不足的站点,平衡负载,并有可能降低研究项目的计算成本。
- 边缘到云部署 – 通过公开从边缘设备到大型云集群的部署选项,AI4EOSC 在同一受管环境中实现实时推理用例(例如遥感、物联网分析)。
- 其他领域的模板 – 模块化服务目录和开源技术栈可适用于基因组学、气候建模或工业物联网等领域,降低任何数据密集型科学中 AI 采用的门槛。
Source: …
限制与未来工作
- 地理范围 – 当前评估仅限于四个欧洲站点;更广泛的全球联邦可能会暴露出尚未解决的延迟和政策挑战。
- 数据治理 – 虽然身份验证已标准化,但跨司法辖区的细粒度数据访问策略仍是一个未解的问题。
- 联邦学习成熟度 – 对隐私保护联邦学习的支持仍处于原型阶段;需要更稳健的算法和安全审计。
- 资源协商自动化 – 未来工作包括更智能、基于策略的调度,能够在参与的云之间自动协商配额和定价。
总体而言,AI4EOSC 展示了一个精心构建的联邦云能够使 AI 研究更加可重复、协作和可扩展——这对希望将前沿机器学习引入科学工作流而不遭遇常见基础设施难题的开发者而言,是一个极具吸引力的前景。
作者
- Ignacio Heredia
- Álvaro López García
- Germán Moltó
- Amanda Calatrava
- Valentin Kozlov
- Alessandro Costantini
- Viet Tran
- Mario David
- Daniel San Martín
- Marcin Płóciennik
- Marta Obregón Ruiz
- Saúl Fernandez
- Judith Sáinz-Pardo Díaz
- Miguel Caballer
- Caterina Alarcón Marín
- Stefan Dlugolinsky
- Martin Šeleng
- Lisana Berberi
- Khadijeh Alibabaei
- Borja Esteban Sanchis
- Pedro Castro
- Giacinto Donvito
- Diego Aguirre
- Sergio Langarita
- Vicente Rodriguez
- Leonhard Duda
- Andrés Heredia Canales
- Susana Rebolledo Ruiz
- João Machado
- Giang Nguyen
- Fernando Aguilar Gómez
- Jaime Díez
论文信息
- arXiv ID: 2512.16455v1
- 分类: cs.DC, cs.AI
- 出版日期: 2025年12月18日
- PDF: 下载 PDF