· ai
[Paper] 从原子到复合:强化学习实现互补推理的泛化
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...
深度研究代理(DRAs)旨在通过迭代的信息检索与综合,自动生成分析师级报告。然而,大多数现有的 DRA……
可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的推理能力,使得自主代理能够……
大型语言模型(LLMs)的崛起引发了对代理的浓厚兴趣,导致代理框架的快速增长。代理框架是软件……
近期大型语言模型(LLMs)的进展主要得益于其新兴的推理能力,尤其是通过长链式思考(CoT)……
理解大型语言模型(LLMs)的内部思考过程以及幻觉产生的原因仍然是一个关键挑战。为此,我们引入了 l...
物联网的增长使新一代应用成为可能,将计算和智能推向网络边缘。这一趋势,如何...
对 MPI 应用程序进行详细的跟踪分析对于性能工程至关重要,但不断增长的跟踪规模和复杂的通信行为常常导致 c...
本文分析了人工智能 (AI) 与混合整数线性规划 (MILP) 的结合,以在...中应对复杂的优化挑战。
自动化测试生成已成为确保软件质量的关键技术,尤其是在现代基于 API 的架构中。然而,自动生成…
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
符号回归(SR)是一种回归方法,旨在发现描述变量之间关系的数学表达式,且它通常...