[Paper] WarmServe:实现一对多 GPU 预热以支持多LLM服务
在共享 GPU 集群中部署多个模型有望提升大语言模型(LLM)服务的资源效率。现有的多 LLM …
在共享 GPU 集群中部署多个模型有望提升大语言模型(LLM)服务的资源效率。现有的多 LLM …
向量搜索是现代信息检索系统的基础,包括检索增强生成(RAG)流水线和针对非结构化文本的搜索引擎……
组织对计算机网络的依赖是通过网络可编程性实现的,而网络可编程性通常通过 Service Function Chaining 来实现。这些 c...
如今,视觉智能工具已经无处不在,提供了各种便利和可能性。然而,这些工具的计算需求很高,...
我们提出了一种新颖的 predict-then-optimize 框架用于 maritime search operations,该框架将 trajectory forecasting 与 UAV deployment optimization 相结合——一个端...
Article URL: https://zenodo.org/records/17873275 Comments URL: https://news.ycombinator.com/item?id=46212969 Points: 14 Comments: 5...
Bug fixing 是软件开发过程中的关键活动。在诸如 JIRA 的问题跟踪系统中,每个 bug 报告都会被分配一个优先级,以 i...
自动算法设计领域已经通过诸如 EoH、FunSearch 和 Reevo 等框架得到了推进。然而,它们仅关注算法进化,忽视……
高性能 GPU kernel 优化仍然是现代机器学习工作负载中一项关键但劳动密集的任务。虽然 Triton,这个领域特定的…
我们将最近的 256 SSE 向量工作扩展到 512 AVX,实现了四倍加速。我们使用 MAGPIE(Machine Automated General Performance Improvement via Evolution of ...)。
基于大型语言模型(LLMs)的 Agentic AI 系统在自动化复杂工作流方面具有巨大的潜力,涵盖从软件开发到客户支持等领域。
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...