[Paper] Incisor:Ex Ante 云实例选择用于 HPC 作业

发布: (2026年4月27日 GMT+8 21:33)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.24464v1

概述

本文介绍了 Incisor,一个在高性能计算(HPC)作业 运行前 自动挑选合适云 VM 类型的系统。传统上,用户必须手动将代码匹配到合适的实例——这既耗时又需要专业知识。Incisor 结合程序分析和大型语言模型(LLM),仅凭可执行文件、输入和命令行即可推断硬件需求,实现了在 AWS 上全自动、高质量的实例选择。

关键贡献

  • 端到端事前实例选择:一个完整的流水线,在提交时决定最佳 EC2 实例,仅使用作业的制品(二进制/脚本、输入、命令)。
  • LLM 引导的硬件推断:新颖地将最先进的编码 LLM 与静态分析结果结合,转化为具体的硬件约束(例如 CPU 核数、内存、GPU、网络带宽)。
  • 零样本成功适用于多样工作负载:对编译的 C/C++/Fortran 程序和 Python 脚本即开即用,在基准套件上实现 100 % 首次运行成功。
  • 性能和成本收益:相较于强基线(专家制定的约束 + SkyPilot),Incisor 将作业运行时间降低 54 %,云费用降低 44 %
  • 开源原型:作者发布了 Incisor 代码和评估脚本,支持可复现性和社区扩展。

方法论

  1. Artifact Collection – 当用户提交作业时,Incisor 会收集可执行文件(或脚本)、其输入数据以及完整的命令行。无需事先进行性能分析或历史运行记录。
  2. Static Program Analysis – 使用常见工具(例如 objdumpreadelfpyright),Incisor 提取:
    • 指令集架构(x86‑64、ARM)
    • 所需库及其版本
    • 内存分配模式(例如大缓冲区、MPI 调用)
    • 并行化提示(OpenMP、MPI、CUDA kernel)
  3. LLM Reasoning Layer – 将提取的事实输入前沿编码 LLM(如 GPT‑4‑Turbo)。通过提示工程让模型将这些事实映射到具体的云资源规格:
    • vCPU 数量、内存大小、是否需要 GPU、网络带宽、存储类型等
    • 基于成本‑性能权衡的实例族偏好(例如 c6ip4dr5n
  4. Instance Ranking & Selection – Incisor 调用 AWS 定价/可用性 API,对候选实例根据 LLM 生成的约束进行打分,并挑选出满足全部需求且最便宜的实例。
  5. Job Dispatch – 将选定的实例类型传递给底层调度器(如 SkyPilot),后者负责创建虚拟机、传输工件并启动作业。

整个流程在秒级完成,使其能够在交互式 HPC 门户中实际使用。

结果与发现

指标基线(SkyPilot + 专家约束)Incisor
首次运行成功率78 %(部分作业因资源不匹配而失败)100 %
平均运行时间缩减‑54 %
平均实例成本缩减‑44 %
选择实例所需时间手动(分钟‑小时)< 5 秒(自动化)
  • 跨语言的鲁棒性:在不进行语言特定调优的情况下,处理了 30 个 C、20 个 C++、15 个 Fortran 和 25 个 Python 工作负载。
  • 成本‑性能平衡:在许多情况下,LLM 建议使用更新且略微更贵的实例系列,但其加速效果足以抵消更高的每小时费用,从而实现净成本节约。
  • 可扩展性:模拟 1,000 个并发提交;选择服务每次请求仍保持在 200 ms 以下,表明该方法能够扩展到大型 HPC 门户。

实际意义

  • 开发者生产力:数据科学家和工程师可以在不深入了解云实例目录的情况下提交作业,使他们能够专注于算法工作。
  • 云成本优化:自动化、工作负载感知的选择为初创公司和运行大量短期 HPC 任务的大型研究机构削减开支。
  • 平台集成:现有的 HPC 即服务平台(如 AWS Batch、Azure CycleCloud)可以将 Incisor 作为插件嵌入,以改进默认实例选择。
  • 快速采用新硬件:随着云提供商推出新实例类型(如 Graviton‑3、更先进的 GPU),Incisor 的 LLM 推理能够立即将其纳入,而无需手动更新规则。
  • 降低失败率:通过确保所需的库、指令集和加速器均已就绪,系统减少了常常浪费开发者时间的“实例不匹配”错误。

限制与未来工作

  • LLM 可靠性:该方法依赖于 LLM 的正确性;偶尔的幻觉可能会建议不可行的资源。作者通过后置验证来缓解此问题,但仍承认存在残余风险。
  • 供应商锁定:当前原型面向 AWS EC2;若要扩展到多云或本地集群,需要额外的适配器和定价模型。
  • 动态工作负载:资源需求在运行时会变化的作业(例如自适应网格细化)仅靠静态分析无法完整捕获。未来工作可能结合轻量级分析或强化学习反馈回路。
  • 安全性与隐私:将代码片段发送给 LLM(即使是自托管的)会引发专有工作负载的顾虑;作者计划探索本地部署 LLM 和隐私保护提示技术。

总体而言,Incisor 展示了将经典程序分析与现代 LLM 推理相结合,能够自动化云 HPC 工作流中传统上手动且易出错的步骤,为开发者和组织带来显著的速度和成本收益。

作者

  • Michael A. Laurenzano
  • Shihan Cheng
  • David A. B. Hyde

论文信息

  • arXiv ID: 2604.24464v1
  • 分类: cs.DC
  • 出版日期: 2026年4月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »