[Paper] QiMeng-Kernel: 宏观思考 微观编码范式用于基于LLM的高性能GPU内核生成
开发高性能 GPU 内核对于 AI 和科学计算至关重要,但由于它依赖于专家级的手工编写且可移植性差,仍然具有挑战性。
开发高性能 GPU 内核对于 AI 和科学计算至关重要,但由于它依赖于专家级的手工编写且可移植性差,仍然具有挑战性。
分布式存储系统通常通过采用有序写入来在数据节点和元数据节点之间保持强一致性: 1) 首先写入数据; 2) …
异步联邦学习(FL)因其提升的效率和可扩展性而近期受到关注,使本地客户端能够将模型更新发送至 …
联邦学习(FL)已被广泛研究,作为一种保护隐私的训练范式。最近,联邦块坐标下降方案已成为……
近年来,资源弹性和成本优化已成为关系型数据库管理系统(RDBMS)的关键需求。虽然云原生的 RDBMS 通过 d...
Mobile agents 已经成为在分布式环境中解决基本图问题的强大框架。近年来,这些 agents 被建模为 aut...
加速器设计语言(ADLs)是一类高级语言,可编译为硬件单元,帮助领域专家快速设计高效的特定应用硬件……
AI 集成编程正逐渐成为构建具备大型语言模型(LLM)的智能系统的基础范式。最近的方法,例如 M...
Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even ... 近期在大型语言模型(LLMs)方面的进展显示出在多种编程语言的代码生成上非常令人印象深刻的能力。然而,即使……
在具有多个计算节点且每个节点内包含多个 CPU 并保持一致性的复杂系统中,一个关键挑战是维护高效且正确的 …
近年来,机器学习和深度学习通过推动图像分类、语音识别和异常检测等领域的进步,取得了显著的成果。
本文提出了一种技术,帮助在一组备选方案中选择最佳的形式规范候选。给定一组规范,我们的技术……