EUNO.NEWS EUNO.NEWS
  • All (20292) +229
  • AI (3103) +13
  • DevOps (906) +6
  • Software (10480) +161
  • IT (5755) +49
  • Education (48)
  • Notice
  • All (20292) +229
    • AI (3103) +13
    • DevOps (906) +6
    • Software (10480) +161
    • IT (5755) +49
    • Education (48)
  • Notice
  • All (20292) +229
  • AI (3103) +13
  • DevOps (906) +6
  • Software (10480) +161
  • IT (5755) +49
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] AugServe:自适应请求调度用于增强大型语言模型推理服务

    随着带有外部工具的增强型大型语言模型(LLMs)在网页应用中日益流行,提升增强型 LLM 推理服务的效率……

    #LLM serving #adaptive scheduling #dynamic batching #inference optimization #augmented LLM
  • 1个月前 · ai

    [Paper] DSD:一种用于边缘‑云敏捷大模型服务的分布式投机解码方案

    大型语言模型(LLM)推理通常面临高解码延迟以及在异构边缘‑云环境中的可扩展性受限。现有的…

    #speculative decoding #LLM serving #edge‑cloud inference #distributed inference #adaptive window control
  • 1个月前 · ai

    [Paper] Aragog:即时模型路由,实现代理工作流的可扩展服务

    Agentic workflows 已经成为解决复杂多阶段任务的强大范式,但在大规模部署时,由于计算成本高昂,尤其是考虑到 m...

    #model routing #agentic workflows #LLM serving #scalable inference #cost optimization
EUNO.NEWS
RSS GitHub © 2026