inference optimization

5일 전 · ai

DeepSeek의 조건부 메모리가 조용한 LLM 낭비를 해결한다: 정적 조회로 인한 GPU 사이클 손실

기업용 LLM이 제품명, 기술 사양 또는 표준 계약 조항을 검색할 때, 이는 복잡한 작업을 위해 설계된 비용이 많이 드는 GPU 연산을 사용하고 있습니다.

#LLM #conditional memory #GPU efficiency #inference optimization #AI infrastructure #model serving
1주 전 · ai

빠른 Transformer 디코딩: One Write-Head만 있으면 충분합니다

개요: 당신의 휴대폰이 문장을 한 단어씩 만들려고 하면서 같은 큰 정보를 반복해서 가져와야 한다고 상상해 보세요 — 그것은 답변을 s...

#transformer decoding #inference optimization #shared memory #write-head #on-device AI
3주 전 · ai

ChatLLM, AI의 실제 병목 현상을 해결하기 위한 간소화된 솔루션을 제시

지난 몇 년 동안, AI에 관한 대화의 대부분은 단순해 보이지만 속이는 질문 하나에 집중되었습니다: 어느 모델이 가장 좋은가? 하지만 그...

#AI bottleneck #model selection #LLM performance #ChatLLM #inference optimization #multimodal AI #reasoning models
1개월 전 · ai

[Paper] AugServe: 적응형 요청 스케줄링을 위한 증강된 Large Language Model 추론 서빙

외부 도구를 갖춘 증강 대형 언어 모델(LLMs)이 웹 애플리케이션에서 점점 더 인기를 얻음에 따라, 증강 LLM 추론 서비스 효율성을 향상시키는 것이...

#LLM serving #adaptive scheduling #dynamic batching #inference optimization #augmented LLM