GPU performance | EUNO.NEWS

3天前 · ai

将 LLM 内存削减 84%：深入探讨 Fused Kernels

为什么你的最终 LLM 层会 OOM，以及如何使用自定义 Triton kernel 来解决。文章《Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels》已出现 fi...

#LLM #memory optimization #fused kernels #Triton #GPU performance #deep learning #model inference
1周前 · ai

优化批处理 AI/ML 推理工作负载中的数据传输

深入探讨数据传输瓶颈、其识别以及在 NVIDIA Nsight™ Systems 帮助下的解决方案——第 2 部分。文章标题：Optimizing Data T…

#batch inference #data transfer optimization #NVIDIA Nsight #GPU performance #deep learning inference #AI workload profiling
1周前 · it

社区测试证实，与 DLSS 4.0 相比，DLSS 4.5 在旧款 RTX 30 和 20 系列 GPU 上导致 20% 以上性能下降——Nvidia 警告在推出后被证实

爱好者对 DLSS 4.5 的测试显示，与 DLSS 4.0 相比，在 RTX 20 系列和 30 系列 GPU 上性能下降了 20% 或更多……

#DLSS #Nvidia #GPU performance #RTX 30 series #AI upscaling
1个月前 · it

爱好者为 Framework 16 笔记本添加 OCuLink 接口——提供 PCIe 4.0 x8 带宽，实现显卡性能大幅提升

这个项目多年来一直被人们议论，但最终在一位热心的modder的努力下得以实现……

#OCuLink #Framework Laptop #PCIe 4.0 #GPU performance #laptop mod #hardware upgrade