GPU performance | EUNO.NEWS

3일 전 · ai

LLM 메모리를 84% 절감: 퓨즈드 커널 심층 분석

왜 최종 LLM 레이어가 OOM이 발생하는지와 커스텀 Triton 커널로 이를 해결하는 방법. The post Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels appeared fi...

#LLM #memory optimization #fused kernels #Triton #GPU performance #deep learning #model inference
1주 전 · ai

배치된 AI/ML 인퍼런스 워크로드에서 데이터 전송 최적화

데이터 전송 병목 현상에 대한 심층 분석, 그 식별 및 NVIDIA Nsight™ Systems의 도움을 통한 해결 방안 – 파트 2. The post Optimizing Data T...

#batch inference #data transfer optimization #NVIDIA Nsight #GPU performance #deep learning inference #AI workload profiling
1주 전 · it

커뮤니티 테스트 결과, DLSS 4.5가 DLSS 4.0에 비해 구형 RTX 30 및 20 시리즈 GPU에서 20% 이상의 성능 저하를 초래한다는 것이 확인되었습니다 — 롤아웃 이후 Nvidia 경고가 사실임을 입증.

열성 사용자들의 DLSS 4.5 테스트 결과, RTX 20‑ 및 30‑시리즈 GPU에서 DLSS 4.0에 비해 20% 이상 성능 저하가 나타났습니다....

#DLSS #Nvidia #GPU performance #RTX 30 series #AI upscaling
1개월 전 · it

열성 사용자가 Framework 16 노트북에 OCuLink 포트를 추가 — 대형 GPU 성능 향상을 위한 PCIe 4.0 x8 대역폭 제공

그 프로젝트는 수년간 떠돌아다녔지만, 결국 한 modder의 헌신적인 노력 덕분에 결실을 맺었습니다....

#OCuLink #Framework Laptop #PCIe 4.0 #GPU performance #laptop mod #hardware upgrade