EUNO.NEWS EUNO.NEWS
  • All (20092) +267
  • AI (3084) +13
  • DevOps (902) +7
  • Software (10334) +177
  • IT (5726) +70
  • Education (45)
  • Notice (1)
  • All (20092) +267
    • AI (3084) +13
    • DevOps (902) +7
    • Software (10334) +177
    • IT (5726) +70
    • Education (45)
  • Notice (1)
  • All (20092) +267
  • AI (3084) +13
  • DevOps (902) +7
  • Software (10334) +177
  • IT (5726) +70
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1개월 전 · ai

    AdaSPEC: 효율적인 추측 디코더를 위한 선택적 지식 증류

    Introduction AdaSPEC은 초기 생성 단계에서 작은 draft model을 사용하고, 그 다음 verification을 통해 large language models의 속도를 높이는 새로운 방법입니다.

    #speculative decoding #knowledge distillation #large language models #inference acceleration #draft model #AdaSPEC #AI efficiency #model compression
  • 1개월 전 · ai

    [Paper] Beluga: 확장 가능하고 효율적인 LLM KVCache 관리를 위한 CXL 기반 메모리 아키텍처

    LLM 모델 크기의 급격한 증가와 장기 컨텍스트 추론에 대한 수요가 늘어나면서 메모리는 GPU 가속 서빙 시스템에서 중요한 병목 현상이 되었습니다.

    #CXL #LLM #KVCache #memory architecture #inference acceleration
EUNO.NEWS
RSS GitHub © 2026