[Paper] 面向结构感知的不规则阻塞稀疏 LU 分解方法
在稀疏 LU 分解中,符号分解后的非零元素往往分布在稀疏矩阵的对角线和右下区域。然而,重新…
在稀疏 LU 分解中,符号分解后的非零元素往往分布在稀疏矩阵的对角线和右下区域。然而,重新…
现代 GPU 软件栈要求开发者在实际启动 kernel 之前就能预判性能瓶颈;误判 floating-point 工作负载会导致……
随着现代并行机器的复杂性和规模不断增长,程序员越来越依赖软件库的组合来封装和…
参数高效微调(PEFT)通过仅更新大型预训练模型中一小部分参数,提供了一种可扩展的全模型适配替代方案。
Aurora 超级计算机于 2024 年部署在 Argonne National Laboratory,目前是全球 Top500 列表中三台 Exascale 机器之一。
我们提出了 tritonBLAS,一个快速且确定性的分析模型,利用诸如缓存层次结构以及相对代码和数据放置等架构参数,……
Normalizing Flows (NFs) 学习数据与高斯分布之间的可逆映射。先前的工作通常存在两个限制。首先,它们添加……
我们引入了“single-life”学习范式,在该范式中,我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...
Graphic design 是现代视觉传播的基石,作为推广文化和商业活动的重要媒介。最近的进展已经…
我们引入 radiance meshes,这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。
Reasoning models leveraging long chains of thought 采用多种认知技能,例如对其答案的 verification、backtracking、通过 alternat… 重试。
Vision Language Models (VLMs) 展示了强大的定性视觉理解能力,但在实现具身所需的度量精确空间推理方面仍然困难……