[Paper] TimelyFreeze:用于流水线并行的自适应参数冻结机制
Pipeline parallelism 使得训练超出单设备内存限制的模型成为可能,但实际吞吐量仍受到 pipeline bubbles 的限制。虽然 parameter …
4663 posts from this source
Pipeline parallelism 使得训练超出单设备内存限制的模型成为可能,但实际吞吐量仍受到 pipeline bubbles 的限制。虽然 parameter …
非侵入式负荷监测(Non‑Intrusive Load Monitoring,NILM),通常称为 energy disaggregation,旨在通过分析整体负荷来估计各个电器的功耗。
在本文中,我们提出了一种受神经启发的 reservoir computing (RC) 方法,其中体外培养的皮层神经元网络作为物理……
从 CVE 描述自动复现漏洞需要生成可执行的概念验证(Proof-of-Concept,PoC)利用代码,并在目标环境中进行验证。
背景:AI-assisted tools 正日益集成到 software development workflows 中,但它们对 large language models (LLMs) 的依赖引入了 …
SEAL 是一种用于验证操作无限链式数据结构的程序的静态分析器。它基于 separation logic 来表示抽象……
Federated Learning 是一种 privacy‑preserving 的去中心化方法,用于 Machine Learning 任务。在以有限数量实体为特征的行业部署中,...
本文提出了一种面向材料感知的 strength-of-connection 度量,用于 smoothed aggregation algebraic multigrid 方法,旨在提升对 sc… 的鲁棒性。
在过去的二十年里,evolutionary multi-objective optimization 的研究主要集中在连续域,对 … 的关注相对有限。
ArkTS 是 OpenHarmony 生态系统中的核心编程语言,但对 ArkTS 代码智能的研究受到缺乏公开数据集和评估的阻碍。
Digital sovereignty 已成为现代软件密集型系统的核心关注点,受非主权云基础设施的主导地位驱动,……
Black-box optimization 正在工程设计问题中被日益采用,因为基于仿真的评估成本高且梯度不可用。在此……
SLO-as-code 使每个服务的可靠性变得可声明,但用户体验是由旅程定义的,而这些旅程的可靠性是微服务的涌现属性……
Dolev‑Reischuk 下界表明,任何针对 n 个处理器、容忍 f 个故障的确定性 Byzantine Agreement(BA)协议都需要 Ω(f^2+n) 条消息……
Distributed ledgers 正在被行业日益依赖,以提供可信的 accountability、强大的 integrity protection 和高可用性,以满足关键…
应用正从单体设计转向 microservice 和 serverless 架构,在这些架构中,轻量级且可独立部署的组件…
通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…
我们提出了蛋白质自回归建模(PAR),这是首个多尺度自回归框架,用于通过粗到细的下一尺度生成蛋白质主链。
物联网 (IoT) 部署在非平稳、动态的环境中运行,其中因素包括传感器漂移、用户行为的演变以及异构…
强化学习(RL)已成为微调大型语言模型(LLMs)的基石,近端策略优化(PPO)作为事实上的…
Dense point tracking 是计算机视觉中的一个基础问题,应用范围从视频分析到机器人操作。最先进的跟踪器…
我们介绍 PerpetualWonder,这是一种混合生成模拟器,能够从单张图像实现长期、动作条件化的 4D 场景生成。当前的工作……
最近的工作表明,扩散模型可以通过直接在 SSL 补丁特征上操作,而不是在像素空间潜在变量上,生成高质量的图像。然而...
最近的进展迅速提升了我们对现代 attention-based neural networks 中 in-context learning 机制的理解。然而,...
Large language models 已经改变了许多应用,但训练仍然昂贵。Sparse Mixture of Experts (MoE) 通过条件计算来解决这个问题……
持续强化学习(Continual reinforcement learning,CRL)要求智能体从一系列任务中学习,同时不忘记先前获得的策略。在本工作中,我们介绍……
训练现代大型语言模型(LLMs)已成为一个名副其实的大杂烩,汇集了旨在引发特定行为的各种算法和数据集,使其…
当前的自回归 Vision Language Models(VLM)通常依赖大量视觉 tokens 来表示图像,导致需要更多的计算 …
机器学习原子间势(MLIPs)有时无法再现量子势能面(PES)的物理平滑性,导致……
从生成标题到捏造新闻,Large Language Models (LLMs) 通常在安全假设的前提下,通过它们的最终输出进行评估。
大型语言模型在闭卷问答中常常难以识别自身的知识限制,导致自信的幻觉。虽然分解...
线性注意力提供了一种计算效率高且表达能力强的替代方案,相比于 softmax 注意力。然而,最近的实证结果表明,状态 o...
Pose 和 motion priors 在 humanoid robotics 中发挥关键作用。虽然这些先验已在 human motion recovery (HMR) 领域得到广泛研究,范围……
量子化学是化学、材料科学、计算生物学等领域的基础性工具。尽管它功能强大,...
我们提出 El Agente Estructural,这是一种多模态、自然语言驱动的几何生成与操作代理,用于自主化学和分子建模……
Reasoning language models(生成长链思考的模型)在抽象问题上显著超越 non‑reasoning language models。然而,...
随着3D扫描技术的进步,点云已成为表示3D空间数据的基础,应用范围遍及各种……
我们对神经网络的理论理解落后于其经验成功。一个重要的未解释现象是,为什么以及如何,在…
软件工程(SE)面临来自 AI 自动化(降低代码生产成本)和硬件‑能源约束(放大故障成本)的双重压力……
静态注解类型已被证明能够帮助开发者完成许多编程任务,即使在没有静态类型检查的情况下,这一好处仍然成立。
人类指甲疾病在所有年龄段逐渐被观察到,尤其是在老年人中,常常被忽视,直到病情严重。早期检测……
在常规结肠镜筛查中,对癌前息肉进行准确的风险分层对于降低结直肠癌(CR...)的发生风险至关重要。
大型语言模型(LLMs)的快速增长已经超出了单GPU硬件的演进速度,使得模型规模越来越受到内存容量的限制。
真正的自我进化要求代理人作为终身学习者,内化新颖的经验以解决未来的问题。然而,严格衡量这一点……
Omni-modal Large Language Models (Omni-LLMs) 已经展示了在音视频理解任务中的强大能力。然而,它们对长多模态……
控制器——管理硬件行为的软件模块——是典型机器人系统的关键组件。虽然控制理论为 s 提供安全保证……
SV-COMP 竞赛提供了一个最先进的平台,用于在标准化的验证任务集合上评估软件验证工具。Consequentl...
自动语音识别(ASR)在会话语音方面仍具挑战性,因为缺乏大规模、标注完善的多说话人对话数据……