[Paper] 考虑截止期限的在线调度用于LLM微调的现货市场预测

发布: (2025年12月24日 GMT+8 13:47)
7 min read
原文: arXiv

Source: arXiv - 2512.20967v1

概览

对大规模基础模型(LLMs)进行微调正成为许多团队的预算杀手。本文展示了如何在遵守用户指定的截止时间的前提下,将廉价且波动的 GPU 现货实例与可靠的按需 VM 结合使用。通过预测现货市场的价格和可用性,作者设计了一种在线调度器,能够显著降低成本——相较于现有启发式方法,效用提升约 55 %——且不牺牲及时性。

关键贡献

  • Spot‑market predictability analysis: 实证研究表明,短期 Spot 价格和可用性具有足够的规律性,可进行有用精度的预测。
  • Mixed‑instance integer programming model: 将成本、截止时间与 Spot 资源的随机性之间的权衡形式化。
  • Prediction‑driven online algorithm (Commitment‑Level Control): 使用“承诺水平”锁定部分执行计划,并在新的价格/可用性信息到达时进行适应。
  • Robust fallback algorithm: 一种无需预测的在线调度器,在预测不佳时仍能保证合理的性能。
  • Meta‑policy selector: 一个在线学习组件,能够自动从参数化策略池中挑选最佳算法,实现 (\mathcal{O}(\sqrt{T})) 的后悔界限。
  • Extensive evaluation: 使用主要云提供商的真实 Spot 价格轨迹和实际的 LLM 微调工作负载进行评估,显示相较于强基线可提升最高 54.8 % 的效用。

方法论

  1. 数据收集与预测 – 作者抓取现货价格和实例可用性日志(例如 AWS、GCP),并训练轻量级时间序列模型(ARIMA、指数平滑)来预测接下来的 (k) 小时。
  2. 数学建模 – 一个整数规划模型捕获:
    • 微调任务所需的 GPU 小时数,
    • 截止时间约束,
    • 成本 = 现货价格 × 现货小时数 + 按需价格 × 按需小时数,
    • 可用性约束(现货实例可能被回收)。
  3. 带承诺级别的在线分配 – 在每个决策时点调度器:
    • 使用当前预测,
    • 求解整数规划的松弛版本以获得 部分 调度,
    • 对第一个片段(即“承诺级别”)进行确认,同时保持后续决策的灵活性。
  4. 无预测回退 – 当预测误差超过阈值时,系统切换到一种贪婪的、考虑截止时间的启发式算法,仅在现货容量不足时使用按需资源。
  5. 通过赌博机学习进行策略选择 – 多臂赌博机框架评估一组策略(不同的承诺级别、预测时域、回退阈值),并随着作业的进行收敛到表现最佳的策略。

所有步骤在单个 CPU 上即可在秒级完成,使该方法在实时云编排中具有实用性。

结果与发现

指标基准(纯按需)仅 Spot 启发式提出的在线框架
总成本(USD)1.00×(参考值)0.68×0.45×
截止时间错失率0%(设计上保证)12%< 1%
效用提升(成本‑vs‑截止时间)+22%+54.8%
对预测误差的敏感性N/A急剧下降逐步退化;回退机制自动启动

关键要点:

  • 即使是相对一般的 Spot 预测(MAE ≈ 5 %),调度器也能提前锁定低价资源,节省 > 30 % 成本。
  • 承诺级别机制防止对后续可能消失的 Spot 实例“过度承诺”,从而将截止时间违规率保持在接近零的水平。
  • 元策略选择器能够自动适应市场状态(如价格突涨、高抢占率),无需人工调参。

实际意义

  • Cost‑effective fine‑tuning pipelines: Teams can integrate the scheduler into existing ML orchestration tools (Kubeflow, Airflow) to automatically decide when to spin up spot GPUs versus on‑demand ones.
  • Budget‑constrained research labs: By guaranteeing deadlines, labs can run large‑scale experiments on a predictable budget, freeing up funds for additional research.
  • Cloud‑provider tooling: The methodology could be packaged as a SaaS offering or a plug‑in for cloud marketplaces, giving customers a “deadline‑aware spot optimizer” out‑of‑the‑box.
  • Generalizable to other workloads: Any GPU‑intensive, deadline‑sensitive job (e.g., video rendering, scientific simulations) can benefit from the same mixed‑instance, prediction‑driven approach.

限制与未来工作

  • 预测范围仅限于几小时: 长期预测会变得嘈杂;将范围扩展到多天可能需要更复杂的模型(例如 LSTM、基于 Transformer 的时间序列)。
  • 现货市场的异质性: 本研究仅关注少数主要云服务提供商;新兴市场(例如抢占式 TPU、边缘节点现货池)需要单独验证。
  • 假设作业规模静态: 对于在训练过程中 GPU 使用时长会变化的动态工作负载未作明确处理。
  • 潜在的监管/合规约束: 某些企业因安全或数据隐私原因限制使用现货;将政策感知约束纳入系统是一个待研究方向。

未来研究可以探索基于深度学习的价格预测模型,加入多云套利,并将整数规划扩展以处理弹性作业图(例如具有不同资源需求的流水线阶段)。

作者

  • Linggao Kong
  • Yuedong Xu
  • Lei Jiao
  • Chuan Xu

论文信息

  • arXiv ID: 2512.20967v1
  • 分类: cs.DC, cs.LG
  • 出版日期: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »