[Paper] Trident：用于异构多模态数据流水线的自适应调度

发布: 1天前 (2026年3月3日 GMT+8 01:00)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.02075v1

Overview

多模态 AI 流水线——比如 PDF‑to‑text 提取、视频字幕生成或图文检索——将大量 CPU 预处理与 GPU/TPU 推理混合在一起。由于工作负载不断变化（输入尺寸不同、模型长度可变、偶尔出现内存峰值），静态调度器要么浪费资源，要么因内存不足而崩溃。Trident 是一个全新的自适应调度框架，它实时监控流水线，预测每个算子可以运行的速度，并在固定集群上持续重新优化算子放置和并行度。结果是在不增加硬件的情况下实现高达 2× 的吞吐量提升。

关键贡献

三层闭环调度器，它 (1) 使用高斯过程回归观察每个算子的吞吐量，(2) 检测工作负载状态变化并运行内存感知的贝叶斯优化，(3) 求解混合整数线性规划，以联合决定并行度、设备放置和安全的配置切换。
异常过滤的 GP 模型，能够处理异步异构算子常见的嘈杂、突发的性能信号。
受内存约束的贝叶斯优化器，确保任何建议的配置在内存溢出（OOM）安全范围内，即使管道的内存占用出现峰值。
滚动更新调度，考虑冷启动成本，实现平滑过渡而无需暂停整个管道。
与 Ray Data 的集成 并在真实的文档和视频策展管道上进行演示，分别实现高达 2.01× 和 1.88× 的吞吐量提升。

方法论

观察层 – 每个算子（例如 PDF 解析、OCR、视频解码、Transformer 推理）报告其当前吞吐量和内存使用情况。Trident 对这些测量值拟合高斯过程（GP）模型，自动剔除由瞬时峰值引起的异常值。GP 预测任何并行度水平下的 可持续 吞吐量。
适应层 – 轻量级变点检测器监控 GP 预测。当检测到转变（例如出现一批更长的 PDF）时，Trident 启动贝叶斯优化循环，在 硬性内存预算 约束下搜索并行度和设备放置设置的空间。优化器仅返回 GP 预测能够保持在内存限制内的配置。
调度层 – 选定的配置被送入混合整数线性规划（MILP）。MILP 同时决定：
- 每个算子运行多少副本（并行度）。
- 每个副本应占用哪种硬件（CPU、GPU、NPU、TPU）。
- 何时滚动新配置，平衡冷启动成本（模型加载、数据预热）与预期吞吐提升。
MILP 还遵守集群范围的约束，如 GPU 总内存、PCIe 带宽和 CPU 核心数。
反馈回路 – 新调度生效后，Trident 使任何过时的 GP 样本失效（因为环境已变），并开始收集新观测，保持模型的最新。

所有这些都在线运行，开销在亚秒级，适用于不能容忍长时间重新优化暂停的生产服务。

结果与发现

流水线	基线（静态）	Trident（自适应）	加速比	内存安全
PDF 文档策划（CPU 密集预处理 + GPU OCR）	120 docs/s	242 docs/s	2.01×	无 OOM 事件
视频策划（解码 → 帧级模型 → 元数据）	45 clips/s	85 clips/s	1.88×	无 OOM 事件
开销	–	< 5 % 的总运行时间	–	–

关键观察

吞吐量提升在工作负载出现频繁状态切换时最高（例如，混合大小的 PDF）。自适应循环能够快速为大批量任务提升并行度，并在较轻的批次时降低并行度，使 GPU 利用率保持在约 90 %。
内存感知优化消除了在峰值内存激增期间（例如处理高分辨率视频）导致的 OOM 崩溃，这是静态基线的常见问题。
MILP 在 32 核控制节点上求解时间 < 200 ms，这意味着调度更新可以每分钟多次进行，而不会影响延迟。

Practical Implications

对于 AI 平台工程师：Trident 可以直接嵌入现有的 Ray Data 流水线（或类似的数据流框架），在相同硬件上自动提取更多性能，从而降低云费用。
对于 ML Ops 团队：内存安全的贝叶斯优化器消除了手动“最大批量大小”调优的需求，这是一类常见的生产事故根源。
对于构建多模态服务的开发者：现在可以在 CPU 密集型预处理（例如 PDF 解析、视频解码）与加速器支持的推理之间自由混合，而无需为每个算子手工编写扩展规则。Trident 的滚动更新在重新配置期间保持延迟稳定，这对 SLA 至关重要。
对于云服务提供商：该方法展示了更智能的调度能够在现有集群上实现吞吐量翻倍，可能延迟昂贵硬件升级的需求。

限制与未来工作

固定资源假设 – Trident 在静态集群内进行优化；目前并未触发水平扩缩（添加/移除节点）。将循环扩展至包含自动扩缩决策将提升适用范围。
建模开销 – 高斯过程回归的计算复杂度随观测数量呈立方增长；当前实现使用滑动窗口保持数据集规模较小，但可能会丢失长期趋势。采用更具可扩展性的代理模型（例如深度核学习）有望提升准确性。
算子粒度 – 框架假设算子能够暴露吞吐量和内存指标。黑箱阶段（如第三方服务）需要进行仪表化或使用代理包装器。
超出 Ray Data 的通用性 – 虽然概念可移植，但将 Trident 与其他编排系统（Kubernetes、Dask）集成时，需要为它们的调度 API 编写适配器。

未来的研究方向包括多集群协同、与成本感知云计费 API 的集成，以及探索基于强化学习的调度器，以便从更长的部署历史中学习。

作者

Ding Pan
Zhuangzhuang Zhou
Long Qian
Binhang Yuan

论文信息

arXiv ID: 2603.02075v1
Categories: cs.DC
Published: 2026年3月2日
PDF: 下载 PDF

[Paper] Trident：用于异构多模态数据流水线的自适应调度

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] Subcubic 异步硬币投掷（无设置）

[Paper] TeraPool：一种物理设计感知的、1024 RISC‑V 核共享 L1 内存的可扩展集群设计，具备高带宽主存链接

[Paper] 时间的语义之箭，第I部分：从Eddington到Ethernet

[Paper] 无时间方向的消息传递：约束语义与FITO类别错误