[论文] Cornserve:高效服务任意到任意多模态模型

发布: (2025年12月16日 GMT+8 13:14)
7 min read
原文: arXiv

Source: arXiv - 2512.14098v1

请提供您希望翻译的具体文本内容,我将按照要求把它翻译成简体中文并保留原有的格式。

概览

Cornserve 是一个新型服务系统,专为快速增长的 Any‑to‑Any multimodal models——模型可以接受任意组合的文本、图像、视频或音频作为输入,并产生任意组合的这些模态作为输出。通过让开发者只需描述一次模型的计算图,然后自动生成优化的部署计划,Cornserve 弥合了这些模型的灵活性与生产推理的实际约束之间的差距。

关键贡献

  • 统一图描述:为开发者提供一个简单的 DSL,以在单个模型图中声明异构组件(编码器、LLM、扩散生成器等)。
  • 自动规划与拆分:调度器根据工作负载模式和组件特性决定是保持模型单体还是将其拆分为更小的服务。
  • 异构感知运行时:分布式执行引擎,调度混合模态子任务,平衡 GPU/CPU 资源,并在组件之间进行数据流水线处理。
  • 性能提升:实证结果显示,与现有服务堆栈相比,吞吐量提升最高可达 3.81×,尾部延迟降低 5.79×
  • 通用性:适用于各种 Any‑to‑Any 模型,从文本到图像的扩散管道到视频问答系统。

方法论

  1. 模型图规范 – 开发者编写轻量级描述(类似于有向无环图),列出每个阶段,例如 “image encoder → multimodal transformer → diffusion decoder”。
  2. 规划阶段
    • 性能分析:Cornserve 运行快速离线基准测试,以测量每个组件的计算成本、内存占用和数据传输大小。
    • 成本模型:它将这些测量值与预期的请求混合(例如 40 % 文本到图像,20 % 音频到文本)相结合,以估算整体延迟和资源使用情况。
    • 优化:使用混合整数线性规划,规划器决定:
      • 哪些组件保持在同一设备上。
      • 哪些应拆分为独立的微服务。
      • 每个服务需要多少副本。
  3. 分布式运行时 – 推理时,请求路由器解析传入的模态组合,查找预计算的计划,并将子任务分派给相应的工作节点。运行时处理:
    • 异构硬件(扩散使用 GPU,轻量级编码器使用 CPU)。
    • 流水线,实现计算与数据传输的重叠。
    • 动态扩缩,当请求模式变化时。

整个流水线构建在现有的容器编排平台(Kubernetes)和推理框架(TensorRT、PyTorch Serve)之上,开发者无需重写模型代码即可采用。

结果与发现

场景基线(单服务)Cornserve加速比尾部延迟 ↓
文本到图像(Stable Diffusion)45 请求/秒172 请求/秒3.81×5.79×
音频到文本(Whisper + LLM)30 请求/秒92 请求/秒3.07×4.2×
视频问答(ViT 编码器 + LLM)12 请求/秒34 请求/秒2.83×3.9×

关键要点

  • 组件级别的扩展(例如,仅复制扩散解码器)比扩展整个单体模型能更好地利用资源。
  • 跨模态流水线可以减少 GPU 空闲时间,尤其是当请求同时包含低成本编码器和高成本生成器时。
  • 规划器的决策在典型工作负载波动下保持稳定,运行时可以即时重新规划,几乎不产生中断。

实际影响

  • 更快的产品功能:构建 AI 驱动编辑器、聊天助手或内容生成工具的团队可以在不超额配置硬件的情况下提供更丰富的多模态交互。
  • 成本节约:仅在重量级阶段分配 GPU,云费用可以大幅下降——尤其是对于只需要部分组件的突发工作负载。
  • 简化运维:工程师不再需要为每个新多模态模型手动划分微服务边界;Cornserve 的规划器会自动完成。
  • 面向未来:随着新的 Any‑to‑Any 架构(例如音频到视频的扩散)出现,它们可以以最少的代码更改接入同一服务堆栈。

限制与未来工作

  • 静态分析假设:规划器依赖离线基准;输入规模的突变(例如超高分辨率图像)可能会降低计划的最优性。
  • 硬件多样性:当前实验聚焦于以 GPU 为中心的集群;将运行时扩展到异构边缘设备(TPU、NPU)留待后续工作。
  • 模型特定优化:某些模型受益于自定义内核或量化,而 Cornserve 目前尚未自动提供这些功能。
  • 动态工作负载适配:虽然支持重新规划,但重新优化的延迟仍可在超低延迟服务中进一步提升。

总体而言,Cornserve 证明了系统化、图感知的服务方法能够释放当今最灵活的多模态 AI 系统的性能潜力,使其在真实产品中可行。

作者

  • Jeff J. Ma
  • Jae-Won Chung
  • Jisang Ahn
  • Yizhuo Liang
  • Akshay Jajoo
  • Myungjin Lee
  • Mosharaf Chowdhury

论文信息

  • arXiv ID: 2512.14098v1
  • 分类: cs.LG, cs.DC
  • 发表时间: 2025年12月16日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »