[Paper] Trident:用于异构多模态数据流水线的自适应调度

发布: (2026年3月3日 GMT+8 01:00)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.02075v1

Overview

多模态 AI 流水线——比如 PDF‑to‑text 提取、视频字幕生成或图文检索——将大量 CPU 预处理与 GPU/TPU 推理混合在一起。由于工作负载不断变化(输入尺寸不同、模型长度可变、偶尔出现内存峰值),静态调度器要么浪费资源,要么因内存不足而崩溃。Trident 是一个全新的自适应调度框架,它实时监控流水线,预测每个算子可以运行的速度,并在固定集群上持续重新优化算子放置和并行度。结果是在不增加硬件的情况下实现高达 2× 的吞吐量提升

关键贡献

  • 三层闭环调度器,它 (1) 使用高斯过程回归观察每个算子的吞吐量,(2) 检测工作负载状态变化并运行内存感知的贝叶斯优化,(3) 求解混合整数线性规划,以联合决定并行度、设备放置和安全的配置切换。
  • 异常过滤的 GP 模型,能够处理异步异构算子常见的嘈杂、突发的性能信号。
  • 受内存约束的贝叶斯优化器,确保任何建议的配置在内存溢出(OOM)安全范围内,即使管道的内存占用出现峰值。
  • 滚动更新调度,考虑冷启动成本,实现平滑过渡而无需暂停整个管道。
  • 与 Ray Data 的集成 并在真实的文档和视频策展管道上进行演示,分别实现高达 2.01×1.88× 的吞吐量提升。

方法论

  1. 观察层 – 每个算子(例如 PDF 解析、OCR、视频解码、Transformer 推理)报告其当前吞吐量和内存使用情况。Trident 对这些测量值拟合高斯过程(GP)模型,自动剔除由瞬时峰值引起的异常值。GP 预测任何并行度水平下的 可持续 吞吐量。

  2. 适应层 – 轻量级变点检测器监控 GP 预测。当检测到转变(例如出现一批更长的 PDF)时,Trident 启动贝叶斯优化循环,在 硬性内存预算 约束下搜索并行度和设备放置设置的空间。优化器仅返回 GP 预测能够保持在内存限制内的配置。

  3. 调度层 – 选定的配置被送入混合整数线性规划(MILP)。MILP 同时决定:

    • 每个算子运行多少副本(并行度)。
    • 每个副本应占用哪种硬件(CPU、GPU、NPU、TPU)。
    • 何时滚动新配置,平衡冷启动成本(模型加载、数据预热)与预期吞吐提升。

    MILP 还遵守集群范围的约束,如 GPU 总内存、PCIe 带宽和 CPU 核心数。

  4. 反馈回路 – 新调度生效后,Trident 使任何过时的 GP 样本失效(因为环境已变),并开始收集新观测,保持模型的最新。

所有这些都在线运行,开销在亚秒级,适用于不能容忍长时间重新优化暂停的生产服务。

结果与发现

流水线基线(静态)Trident(自适应)加速比内存安全
PDF 文档策划(CPU 密集预处理 + GPU OCR)120 docs/s242 docs/s2.01×无 OOM 事件
视频策划(解码 → 帧级模型 → 元数据)45 clips/s85 clips/s1.88×无 OOM 事件
开销< 5 % 的总运行时间

关键观察

  • 吞吐量提升在工作负载出现频繁状态切换时最高(例如,混合大小的 PDF)。自适应循环能够快速为大批量任务提升并行度,并在较轻的批次时降低并行度,使 GPU 利用率保持在约 90 %。
  • 内存感知优化消除了在峰值内存激增期间(例如处理高分辨率视频)导致的 OOM 崩溃,这是静态基线的常见问题。
  • MILP 在 32 核控制节点上求解时间 < 200 ms,这意味着调度更新可以每分钟多次进行,而不会影响延迟。

Practical Implications

  • 对于 AI 平台工程师:Trident 可以直接嵌入现有的 Ray Data 流水线(或类似的数据流框架),在相同硬件上自动提取更多性能,从而降低云费用。
  • 对于 ML Ops 团队:内存安全的贝叶斯优化器消除了手动“最大批量大小”调优的需求,这是一类常见的生产事故根源。
  • 对于构建多模态服务的开发者:现在可以在 CPU 密集型预处理(例如 PDF 解析、视频解码)与加速器支持的推理之间自由混合,而无需为每个算子手工编写扩展规则。Trident 的滚动更新在重新配置期间保持延迟稳定,这对 SLA 至关重要。
  • 对于云服务提供商:该方法展示了更智能的调度能够在现有集群上实现吞吐量翻倍,可能延迟昂贵硬件升级的需求。

限制与未来工作

  • 固定资源假设 – Trident 在静态集群内进行优化;目前并未触发水平扩缩(添加/移除节点)。将循环扩展至包含自动扩缩决策将提升适用范围。
  • 建模开销 – 高斯过程回归的计算复杂度随观测数量呈立方增长;当前实现使用滑动窗口保持数据集规模较小,但可能会丢失长期趋势。采用更具可扩展性的代理模型(例如深度核学习)有望提升准确性。
  • 算子粒度 – 框架假设算子能够暴露吞吐量和内存指标。黑箱阶段(如第三方服务)需要进行仪表化或使用代理包装器。
  • 超出 Ray Data 的通用性 – 虽然概念可移植,但将 Trident 与其他编排系统(Kubernetes、Dask)集成时,需要为它们的调度 API 编写适配器。

未来的研究方向包括多集群协同、与成本感知云计费 API 的集成,以及探索基于强化学习的调度器,以便从更长的部署历史中学习。

作者

  • Ding Pan
  • Zhuangzhuang Zhou
  • Long Qian
  • Binhang Yuan

论文信息

  • arXiv ID: 2603.02075v1
  • Categories: cs.DC
  • Published: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »