EUNO.NEWS EUNO.NEWS
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
  • All (2352) +197
    • AI (546) +17
    • DevOps (141) +1
    • Software (988) +123
    • IT (672) +55
    • Education (5) +1
  • Notice
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 2小时前 · ai

    从理论到实践:揭开现代 LLM 中 Key-Value Cache 的神秘面纱

    介绍 — 什么是键值缓存以及我们为何需要它? KV Cache 插图 https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgra...

    #key-value cache #LLM inference #transformer optimization #generative AI #performance acceleration #kv cache #AI engineering
  • 1周前 · ai

    [论文] 在高性能计算基础设施上实现自动化动态 AI 推理伸缩:整合 Kubernetes、Slurm 和 vLLM

    由于对人工智能(AI)推理的需求日益增长,尤其是在高等教育领域,利用现有基础设施的新颖解决方案正在出现……

    #LLM inference #Kubernetes #Slurm #vLLM #HPC
  • 1周前 · devops

    [Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput

    为了满足严格的服务水平目标(SLO),当代大型语言模型(LLMs)将预填充(prefill)和解码(decoding)阶段解耦,并将它们放置在不同的 GPU 上……

    #LLM inference #dynamic scaling #GPU orchestration #goodput optimization #serving architecture
EUNO.NEWS
RSS GitHub © 2025