EUNO.NEWS EUNO.NEWS
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
  • All (20038) +213
    • AI (3083) +12
    • DevOps (901) +6
    • Software (10306) +149
    • IT (5702) +46
    • Education (45)
  • Notice (1)
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    Speculative Sampling을 이용한 대규모 언어 모델 디코딩 가속화

    대형 언어 모델로부터 답변을 거의 두 배 빠르게 받는다고 상상해 보세요. 연구자들은 몇 단어를 미리 쓰는 작은, 빠른 헬퍼를 사용하고, 그 다음에 큰 모델을 활용합니다.

    #large language models #speculative sampling #LLM inference #model decoding #speed optimization
  • 1개월 전 · ai

    UC San Diego 연구실, NVIDIA DGX B200 시스템으로 생성 AI 연구를 진전

    UC San Diego 연구실, NVIDIA DGX B200 시스템을 활용해 생성 AI 연구를 진전시킴 (2025년 12월 17일, Zoe Kessler) https://blogs.nvidia.com/blog/author/zoekessler/

    #generative AI #NVIDIA DGX B200 #large language models #LLM inference #UC San Diego #Hao AI Lab #AI hardware
  • 1개월 전 · ai

    이론에서 실천으로: 현대 LLM의 Key-Value 캐시 해부

    소개 — 키‑밸류 캐시란 무엇이며 왜 필요한가? !KV Cache illustration https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgra...

    #key-value cache #LLM inference #transformer optimization #generative AI #performance acceleration #kv cache #AI engineering
  • 1개월 전 · ai

    [Paper] HPC 인프라스트럭처에서 자동 동적 AI 추론 스케일링: Kubernetes, Slurm 및 vLLM 통합

    Artificial Intelligence (AI) inference에 대한 수요가 증가함에 따라, 특히 고등교육 분야에서 기존 인프라를 활용한 새로운 솔루션이 등장하고 있습니다....

    #LLM inference #Kubernetes #Slurm #vLLM #HPC
  • 1개월 전 · devops

    [Paper] LLM 추론 서빙에서 Goodput을 극대화하기 위한 동적 PD-Disaggregation 아키텍처

    엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.

    #LLM inference #dynamic scaling #GPU orchestration #goodput optimization #serving architecture
EUNO.NEWS
RSS GitHub © 2026