[Paper] Trident:用于异构多模态数据流水线的自适应调度
Source: arXiv - 2603.02075v1
Overview
多模态 AI 流水线——比如 PDF‑to‑text 提取、视频字幕生成或图文检索——将大量 CPU 预处理与 GPU/TPU 推理混合在一起。由于工作负载不断变化(输入尺寸不同、模型长度可变、偶尔出现内存峰值),静态调度器要么浪费资源,要么因内存不足而崩溃。Trident 是一个全新的自适应调度框架,它实时监控流水线,预测每个算子可以运行的速度,并在固定集群上持续重新优化算子放置和并行度。结果是在不增加硬件的情况下实现高达 2× 的吞吐量提升。
关键贡献
- 三层闭环调度器,它 (1) 使用高斯过程回归观察每个算子的吞吐量,(2) 检测工作负载状态变化并运行内存感知的贝叶斯优化,(3) 求解混合整数线性规划,以联合决定并行度、设备放置和安全的配置切换。
- 异常过滤的 GP 模型,能够处理异步异构算子常见的嘈杂、突发的性能信号。
- 受内存约束的贝叶斯优化器,确保任何建议的配置在内存溢出(OOM)安全范围内,即使管道的内存占用出现峰值。
- 滚动更新调度,考虑冷启动成本,实现平滑过渡而无需暂停整个管道。
- 与 Ray Data 的集成 并在真实的文档和视频策展管道上进行演示,分别实现高达 2.01× 和 1.88× 的吞吐量提升。
方法论
-
观察层 – 每个算子(例如 PDF 解析、OCR、视频解码、Transformer 推理)报告其当前吞吐量和内存使用情况。Trident 对这些测量值拟合高斯过程(GP)模型,自动剔除由瞬时峰值引起的异常值。GP 预测任何并行度水平下的 可持续 吞吐量。
-
适应层 – 轻量级变点检测器监控 GP 预测。当检测到转变(例如出现一批更长的 PDF)时,Trident 启动贝叶斯优化循环,在 硬性内存预算 约束下搜索并行度和设备放置设置的空间。优化器仅返回 GP 预测能够保持在内存限制内的配置。
-
调度层 – 选定的配置被送入混合整数线性规划(MILP)。MILP 同时决定:
- 每个算子运行多少副本(并行度)。
- 每个副本应占用哪种硬件(CPU、GPU、NPU、TPU)。
- 何时滚动新配置,平衡冷启动成本(模型加载、数据预热)与预期吞吐提升。
MILP 还遵守集群范围的约束,如 GPU 总内存、PCIe 带宽和 CPU 核心数。
-
反馈回路 – 新调度生效后,Trident 使任何过时的 GP 样本失效(因为环境已变),并开始收集新观测,保持模型的最新。
所有这些都在线运行,开销在亚秒级,适用于不能容忍长时间重新优化暂停的生产服务。
结果与发现
| 流水线 | 基线(静态) | Trident(自适应) | 加速比 | 内存安全 |
|---|---|---|---|---|
| PDF 文档策划(CPU 密集预处理 + GPU OCR) | 120 docs/s | 242 docs/s | 2.01× | 无 OOM 事件 |
| 视频策划(解码 → 帧级模型 → 元数据) | 45 clips/s | 85 clips/s | 1.88× | 无 OOM 事件 |
| 开销 | – | < 5 % 的总运行时间 | – | – |
关键观察
- 吞吐量提升在工作负载出现频繁状态切换时最高(例如,混合大小的 PDF)。自适应循环能够快速为大批量任务提升并行度,并在较轻的批次时降低并行度,使 GPU 利用率保持在约 90 %。
- 内存感知优化消除了在峰值内存激增期间(例如处理高分辨率视频)导致的 OOM 崩溃,这是静态基线的常见问题。
- MILP 在 32 核控制节点上求解时间 < 200 ms,这意味着调度更新可以每分钟多次进行,而不会影响延迟。
Practical Implications
- 对于 AI 平台工程师:Trident 可以直接嵌入现有的 Ray Data 流水线(或类似的数据流框架),在相同硬件上自动提取更多性能,从而降低云费用。
- 对于 ML Ops 团队:内存安全的贝叶斯优化器消除了手动“最大批量大小”调优的需求,这是一类常见的生产事故根源。
- 对于构建多模态服务的开发者:现在可以在 CPU 密集型预处理(例如 PDF 解析、视频解码)与加速器支持的推理之间自由混合,而无需为每个算子手工编写扩展规则。Trident 的滚动更新在重新配置期间保持延迟稳定,这对 SLA 至关重要。
- 对于云服务提供商:该方法展示了更智能的调度能够在现有集群上实现吞吐量翻倍,可能延迟昂贵硬件升级的需求。
限制与未来工作
- 固定资源假设 – Trident 在静态集群内进行优化;目前并未触发水平扩缩(添加/移除节点)。将循环扩展至包含自动扩缩决策将提升适用范围。
- 建模开销 – 高斯过程回归的计算复杂度随观测数量呈立方增长;当前实现使用滑动窗口保持数据集规模较小,但可能会丢失长期趋势。采用更具可扩展性的代理模型(例如深度核学习)有望提升准确性。
- 算子粒度 – 框架假设算子能够暴露吞吐量和内存指标。黑箱阶段(如第三方服务)需要进行仪表化或使用代理包装器。
- 超出 Ray Data 的通用性 – 虽然概念可移植,但将 Trident 与其他编排系统(Kubernetes、Dask)集成时,需要为它们的调度 API 编写适配器。
未来的研究方向包括多集群协同、与成本感知云计费 API 的集成,以及探索基于强化学习的调度器,以便从更长的部署历史中学习。
作者
- Ding Pan
- Zhuangzhuang Zhou
- Long Qian
- Binhang Yuan
论文信息
- arXiv ID: 2603.02075v1
- Categories: cs.DC
- Published: 2026年3月2日
- PDF: 下载 PDF