AI efficiency

3시간 전 · ai

AdaSPEC: 효율적인 추측 디코더를 위한 선택적 지식 증류

Introduction AdaSPEC은 초기 생성 단계에서 작은 draft model을 사용하고, 그 다음 verification을 통해 large language models의 속도를 높이는 새로운 방법입니다.

#speculative decoding #knowledge distillation #large language models #inference acceleration #draft model #AdaSPEC #AI efficiency #model compression
1일 전 · ai

Nvidia, 하이브리드 MoE와 Mamba-Transformer를 탑재한 Nemotron 3 공개, 효율적인 에이전트형 AI 추진

Nvidia는 최첨단 모델인 Nemotron 3의 새로운 버전을 출시했으며, 세계에서 가장 가치 있는 기업이 더 많은…을 제공한다고 말한 모델 아키텍처에 집중했습니다.

#Nvidia #Nemotron 3 #Mixture of Experts #Mamba-Transformer #agentic AI #large language models #AI efficiency