[Paper] 考虑截止期限的在线调度用于LLM微调的现货市场预测

发布: 1个月前 (2025年12月24日 GMT+8 13:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20967v1

概览

对大规模基础模型（LLMs）进行微调正成为许多团队的预算杀手。本文展示了如何在遵守用户指定的截止时间的前提下，将廉价且波动的 GPU 现货实例与可靠的按需 VM 结合使用。通过预测现货市场的价格和可用性，作者设计了一种在线调度器，能够显著降低成本——相较于现有启发式方法，效用提升约 55 %——且不牺牲及时性。

关键贡献

Spot‑market predictability analysis: 实证研究表明，短期 Spot 价格和可用性具有足够的规律性，可进行有用精度的预测。
Mixed‑instance integer programming model: 将成本、截止时间与 Spot 资源的随机性之间的权衡形式化。
Prediction‑driven online algorithm (Commitment‑Level Control): 使用“承诺水平”锁定部分执行计划，并在新的价格/可用性信息到达时进行适应。
Robust fallback algorithm: 一种无需预测的在线调度器，在预测不佳时仍能保证合理的性能。
Meta‑policy selector: 一个在线学习组件，能够自动从参数化策略池中挑选最佳算法，实现 (\mathcal{O}(\sqrt{T})) 的后悔界限。
Extensive evaluation: 使用主要云提供商的真实 Spot 价格轨迹和实际的 LLM 微调工作负载进行评估，显示相较于强基线可提升最高 54.8 % 的效用。

方法论

数据收集与预测 – 作者抓取现货价格和实例可用性日志（例如 AWS、GCP），并训练轻量级时间序列模型（ARIMA、指数平滑）来预测接下来的 (k) 小时。
数学建模 – 一个整数规划模型捕获：
- 微调任务所需的 GPU 小时数，
- 截止时间约束，
- 成本 = 现货价格 × 现货小时数 + 按需价格 × 按需小时数，
- 可用性约束（现货实例可能被回收）。
带承诺级别的在线分配 – 在每个决策时点调度器：
- 使用当前预测，
- 求解整数规划的松弛版本以获得部分调度，
- 对第一个片段（即“承诺级别”）进行确认，同时保持后续决策的灵活性。
无预测回退 – 当预测误差超过阈值时，系统切换到一种贪婪的、考虑截止时间的启发式算法，仅在现货容量不足时使用按需资源。
通过赌博机学习进行策略选择 – 多臂赌博机框架评估一组策略（不同的承诺级别、预测时域、回退阈值），并随着作业的进行收敛到表现最佳的策略。

所有步骤在单个 CPU 上即可在秒级完成，使该方法在实时云编排中具有实用性。

结果与发现

指标	基准（纯按需）	仅 Spot 启发式	提出的在线框架
总成本（USD）	1.00×（参考值）	0.68×	0.45×
截止时间错失率	0%（设计上保证）	12%	< 1%
效用提升（成本‑vs‑截止时间）	—	+22%	+54.8%
对预测误差的敏感性	N/A	急剧下降	逐步退化；回退机制自动启动

关键要点：

即使是相对一般的 Spot 预测（MAE ≈ 5 %），调度器也能提前锁定低价资源，节省 > 30 % 成本。
承诺级别机制防止对后续可能消失的 Spot 实例“过度承诺”，从而将截止时间违规率保持在接近零的水平。
元策略选择器能够自动适应市场状态（如价格突涨、高抢占率），无需人工调参。

实际意义

Cost‑effective fine‑tuning pipelines: Teams can integrate the scheduler into existing ML orchestration tools (Kubeflow, Airflow) to automatically decide when to spin up spot GPUs versus on‑demand ones.
Budget‑constrained research labs: By guaranteeing deadlines, labs can run large‑scale experiments on a predictable budget, freeing up funds for additional research.
Cloud‑provider tooling: The methodology could be packaged as a SaaS offering or a plug‑in for cloud marketplaces, giving customers a “deadline‑aware spot optimizer” out‑of‑the‑box.
Generalizable to other workloads: Any GPU‑intensive, deadline‑sensitive job (e.g., video rendering, scientific simulations) can benefit from the same mixed‑instance, prediction‑driven approach.

限制与未来工作

预测范围仅限于几小时: 长期预测会变得嘈杂；将范围扩展到多天可能需要更复杂的模型（例如 LSTM、基于 Transformer 的时间序列）。
现货市场的异质性: 本研究仅关注少数主要云服务提供商；新兴市场（例如抢占式 TPU、边缘节点现货池）需要单独验证。
假设作业规模静态: 对于在训练过程中 GPU 使用时长会变化的动态工作负载未作明确处理。
潜在的监管/合规约束: 某些企业因安全或数据隐私原因限制使用现货；将政策感知约束纳入系统是一个待研究方向。

未来研究可以探索基于深度学习的价格预测模型，加入多云套利，并将整数规划扩展以处理弹性作业图（例如具有不同资源需求的流水线阶段）。

作者

Linggao Kong
Yuedong Xu
Lei Jiao
Chuan Xu

论文信息

arXiv ID: 2512.20967v1
分类: cs.DC, cs.LG
出版日期: 2025年12月24日
PDF: 下载 PDF

[Paper] 考虑截止期限的在线调度用于LLM微调的现货市场预测

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Agentic Structured Graph Traversal 用于云应用中代码相关事件的根因分析

[Paper] 剪枝如游戏：平衡驱动的神经网络稀疏化

[Paper] 可解释的多模态回归通过信息分解

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告