[Paper] 超越负向回滚:仅正向策略优化与隐式负梯度
强化学习与可验证奖励(RLVR),由于确定性验证,已成为提升……推理能力的主导范式。
强化学习与可验证奖励(RLVR),由于确定性验证,已成为提升……推理能力的主导范式。
检索增强代理正日益成为大型组织知识库的接口,但大多数仍将检索视为黑箱:它们发出 exp...
Venn‑Abers 预测器是具有吸引人有效性属性的概率预测器,但它们的主要限制是仅适用于 t……
荧光蛋白的量子产率(QY)主要受成熟的发色团及其三维微环境的影响,而不仅仅取决于序列本身。
尽管多模态领域泛化(MMDG)在提升模型鲁棒性方面日益受到关注,但尚不清楚报告的性能提升是否……
大型语言模型(LLMs)正日益被用作交互式代理,但由于当前……,优化它们在长期决策中的表现仍然困难。
开发陶瓷釉料是一项成本高、耗时的反复试验过程,因为其化学成分复杂,这给独立艺术家带来了沉重的负担。……
我们引入递归代理优化(Recursive Agent Optimization,RAO),这是一种用于训练递归代理的强化学习方法:代理能够生成并委派子任务……
强化学习(RL)已被用于提升大语言模型(LLM)的推理能力,然而关于训练规模如何随任务难度……
尽管行人再识别已经取得了显著进展,但障碍物导致的遮挡仍然是实际应用中未解决的问题。困难在于...
大型语言模型(LLMs)驱动深度研究代理,将来自数百个网络来源的信息综合成带引用的报告,但这些引用无法……
我们提出了一种简化的 human-in-the-loop 工作流,用于第二语言 (L2) 韩语形态句法标注,通过利用两个 domain-adapted … 的一致性。
基于大语言模型(LLM)的多智能体系统(MAS)在处理复杂协作任务方面展现出前景,其中智能体通常通过…
稀疏自编码器(SAEs)已成为机制可解释性中的重要工具,帮助分析大型语言模型中的内部表征……
对比语言-图像预训练(CLIP)存在两个结构性弱点:对称的InfoNCE损失会丢弃未匹配项之间的相对顺序……
估计相机几何通常涉及求解最小问题,这些问题被表述为多变量多项式方程组,而这些方程组往往在计算上极具挑战性。代数几何提供了一套强大的工具来分析和求解此类方程,例如 Gröbner bases、数值同伦 continuation 和 resultant 方法。然而,这些方法在数值稳定性、计算复杂度以及对噪声和离群点的鲁棒性方面仍存在显著限制。 在实际应用中,常常需要在保持高精度的同时实现实时性能,这促使研究者探索混合符号-数值技术、稀疏矩阵分解以及基于随机采样的 RANSAC 框架的改进。近年来,深度学习驱动的端到端模型也被用于近似求解相机姿态和内参,但它们往往缺乏可解释性和对几何约束的严格遵守。 因此,当前的研究重点在于:① 开发更高效的 Gröbner basis 计算算法,以利用问题的结构稀疏性;② 设计稳健的数值求解器,能够在存在噪声和离群点的情况下保持收敛性;③ 将代数几何方法与机器学习预测相结合,形成既具几何解释又具计算速度的混合系统。通过这些方向的深入探索,有望在相机标定、三维重建和增强现实等领域实现更可靠且高效的几何估计。
物联网(IoT)和工业物联网(IIoT)的快速扩展已经创建了一个庞大且异构的攻击面,挑战了传统的…
大型语言模型在自回归范式下取得了显著成功,然而高质量的文本生成并不一定必须绑定在固定的左到右……
大型语言模型(LLM)代理在宽松规格下的自主代码生成方面表现出强大的性能。然而,生产级软件的…
地球上生命的一个标志是主体能够施加因果力量并驱动后续事件的能力。这是所有层次认知的关键。因果 e...
Large language model systems 正在越来越多地作为 agentic workflows 部署,交织推理、tool use、memory 和 iterative refinement。这些系统……
许多现实世界的优化问题由多个紧密耦合的子问题组成,这些子问题的解必须协调一致,以实现整体性能的提升。H...
大型语言模型(LLMs)现在在软件开发工作流中广泛参与,它们生成的代码经常包含第三方库(TPL)……
随着大型模型从对话助理演变为自主代理,挑战日益来自于长期决策、工具使用以及 rea...
旧金山艺术宫上周举办了 Dreame Next 2026 Tech Summit。照片由 Kelsey McClellan / The Verge 提供 概览 数百位影响者,...
我们引入了一个评估框架,涵盖 500 个 C 语言验证任务,涉及五类属性(memory safety、overflow、termination、reachability、data races)...
少打字,多tanking。更快的登录意味着在游戏中拥有更多时间——而本周提供GeForce NOW会员服务。https://www.nvidia.com/en-us/geforce-now/
LLM-as-a-Judge 流程已成为代理安全的事实评估器,然而现有基准在未进行检查的情况下将它们的裁决视为 ground-truth 代理。
大多数 coding-agent benchmarks 会询问 generated code 是否表现正确。这仍然是关键,但 repository-level engineering 正在日益 agent-manage……
多年来,我们像对待其他关键基础设施一样构建 LLM 服务系统:一个单一的通用堆栈,经过多年工程师的手工调优,旨在……
高容量关联记忆模型,例如 Kernel Logistic Regression (KLR) Hopfield 网络,已经展示出强大的存储能力,但通常……
线性注意力(Linear Attention,LA)为将大型语言模型(LLMs)扩展到长序列提供了一种有前景的范式,因为它避免了自注意力的二次复杂度。
自动化、工资溢价与美国不平等 当我们听到自动化和人工智能取代工作时,可能会觉得这是一场技术的海啸……
我们引入 Graph Normalization(GN),一种在图上工作的原理性动力系统,作为可微分的近似引擎,用于 NP 难的 Maximum Weig...
从单目视频进行密集的3D 重建和动态场景跟踪仍然是计算机视觉中的一个重要未解决的挑战。该领域的进展已经……
我们研究扩散Transformer(DiTs)在图像生成中的异常标记。先前的工作表明,视觉Transformer(ViTs)可以产生少量的……
本研究提出了一种基于线性同余生成器(Linear Congruential Generator, LCG)特殊变体的全新确定性优化算法。虽然传统算法……
语法正确性和可能性是人类语言中不同的概念。预训练语言模型(LMs),作为语言的概率模型,拟合到最大……
在本说明中,我们报告了与Grok合作取得的五项数学发现,所有这些发现随后都已被作者验证。它们包括……
长时程搜索代理必须在推理、调用工具和观察信息的过程中管理快速增长的工作上下文。天真地累积所有中间…
一个 d×d 线性记忆能够存储多少键值关联?我们展示,答案不仅取决于记忆矩阵中的 d^2 自由度,...
本文报告了 LoViF 2026 PhyScore 挑战赛,这是一个针对世界模型生成视频在 2D 与 4D 基因层面进行整体质量评估的竞赛。
深度搜索已成为前沿多模态代理的关键能力,使模型能够通过主动搜索、证据验证来解决复杂问题,...
迄今为止,估计机器学习中期望损失的最常见方法是抽取样本,对每个样本计算损失,然后取经验平均值。Ho...
预训练的 Transformer 能够在不进行权重更新的情况下,从提示中提供的示例中学习,这是一种被称为 in-context learning 的显著能力。
背景:现有的 MRI LLM 基准主要依赖于复习书籍的多项选择题,而顶级专有模型已经在这些题目上得分很高,限制了辨别能力……
Behavior Cloning(BC)已成为机器人学习的高效范式。然而,BC缺乏在示范之后进行在线自我改进的机制。
Self-consistency 通过为一个问题生成多个采样答案并测量它们的一致性来检测 hallucinations,但这需要重复解码和 ca...