[Paper] 为什么全球 LLM Leaderboards 具有误导性:针对异构监督式 ML 的小型组合
通过成对人工反馈对 LLM 进行排名是当前开放式任务(如创意写作和问题解决)排行榜的基础。我们分析了约 89K 次比较……
通过成对人工反馈对 LLM 进行排名是当前开放式任务(如创意写作和问题解决)排行榜的基础。我们分析了约 89K 次比较……
优化器在训练大型语言模型(LLMs)的预训练和微调阶段都扮演着重要角色。在本文中,我们提出了一项观察……
许多部署必须在相关语言、行业或监管制度的标记 benchmark 出现之前,对候选 language models 的安全性进行比较。我们……
我们介绍了 AI co-mathematician,一个为数学家提供交互式利用 AI 代理开展开放式研究的工作台。AI co-mathematician …
强化学习与可验证奖励(RLVR),由于确定性验证,已成为提升……推理能力的主导范式。
检索增强代理正日益成为大型组织知识库的接口,但大多数仍将检索视为黑箱:它们发出 exp...
Venn‑Abers 预测器是具有吸引人有效性属性的概率预测器,但它们的主要限制是仅适用于 t……
荧光蛋白的量子产率(QY)主要受成熟的发色团及其三维微环境的影响,而不仅仅取决于序列本身。
尽管多模态领域泛化(MMDG)在提升模型鲁棒性方面日益受到关注,但尚不清楚报告的性能提升是否……
大型语言模型(LLMs)正日益被用作交互式代理,但由于当前……,优化它们在长期决策中的表现仍然困难。
开发陶瓷釉料是一项成本高、耗时的反复试验过程,因为其化学成分复杂,这给独立艺术家带来了沉重的负担。……
我们引入递归代理优化(Recursive Agent Optimization,RAO),这是一种用于训练递归代理的强化学习方法:代理能够生成并委派子任务……
强化学习(RL)已被用于提升大语言模型(LLM)的推理能力,然而关于训练规模如何随任务难度……
尽管行人再识别已经取得了显著进展,但障碍物导致的遮挡仍然是实际应用中未解决的问题。困难在于...
大型语言模型(LLMs)驱动深度研究代理,将来自数百个网络来源的信息综合成带引用的报告,但这些引用无法……
我们提出了一种简化的 human-in-the-loop 工作流,用于第二语言 (L2) 韩语形态句法标注,通过利用两个 domain-adapted … 的一致性。
基于大语言模型(LLM)的多智能体系统(MAS)在处理复杂协作任务方面展现出前景,其中智能体通常通过…
稀疏自编码器(SAEs)已成为机制可解释性中的重要工具,帮助分析大型语言模型中的内部表征……
对比语言-图像预训练(CLIP)存在两个结构性弱点:对称的InfoNCE损失会丢弃未匹配项之间的相对顺序……
估计相机几何通常涉及求解最小问题,这些问题被表述为多变量多项式方程组,而这些方程组往往在计算上极具挑战性。代数几何提供了一套强大的工具来分析和求解此类方程,例如 Gröbner bases、数值同伦 continuation 和 resultant 方法。然而,这些方法在数值稳定性、计算复杂度以及对噪声和离群点的鲁棒性方面仍存在显著限制。 在实际应用中,常常需要在保持高精度的同时实现实时性能,这促使研究者探索混合符号-数值技术、稀疏矩阵分解以及基于随机采样的 RANSAC 框架的改进。近年来,深度学习驱动的端到端模型也被用于近似求解相机姿态和内参,但它们往往缺乏可解释性和对几何约束的严格遵守。 因此,当前的研究重点在于:① 开发更高效的 Gröbner basis 计算算法,以利用问题的结构稀疏性;② 设计稳健的数值求解器,能够在存在噪声和离群点的情况下保持收敛性;③ 将代数几何方法与机器学习预测相结合,形成既具几何解释又具计算速度的混合系统。通过这些方向的深入探索,有望在相机标定、三维重建和增强现实等领域实现更可靠且高效的几何估计。
物联网(IoT)和工业物联网(IIoT)的快速扩展已经创建了一个庞大且异构的攻击面,挑战了传统的…
大型语言模型在自回归范式下取得了显著成功,然而高质量的文本生成并不一定必须绑定在固定的左到右……
关于 LLM 基础设施的评估性声明——“工作负载 X 在 hardware Y 上使用 software Z 时最快”——取决于跨越硬件……
Agentic reinforcement learning(RL)已成为提升 LLM 多步推理和工具使用能力的关键驱动力。然而,它的效率...
基于LLM的自主编码代理已经重塑了软件开发。虽然这些代理在代码生成方面表现出色,但关于长期……仍然存在未解之问。
大型语言模型(LLM)代理在宽松规格下的自主代码生成方面表现出强大的性能。然而,生产级软件的…
地球上生命的一个标志是主体能够施加因果力量并驱动后续事件的能力。这是所有层次认知的关键。因果 e...
混合并行是支撑跨数万块 GPU 的大规模 LLM 训练的基础。在如此规模下,单个设备的硬件故障会导致性能...
Large language model systems 正在越来越多地作为 agentic workflows 部署,交织推理、tool use、memory 和 iterative refinement。这些系统……
许多现实世界的优化问题由多个紧密耦合的子问题组成,这些子问题的解必须协调一致,以实现整体性能的提升。H...
大型语言模型(LLMs)现在在软件开发工作流中广泛参与,它们生成的代码经常包含第三方库(TPL)……
随着大型模型从对话助理演变为自主代理,挑战日益来自于长期决策、工具使用以及 rea...
开发者在实现相关功能的代码位置上经常会犯相似的错误。这些位置被称为 siblings,它们共享相似的问题并且 re...
我们引入了一个评估框架,涵盖 500 个 C 语言验证任务,涉及五类属性(memory safety、overflow、termination、reachability、data races)...
背景:开源软件生态系统呈现出密集的依赖网络,其中结构中心包的维护退化可能会传播……
LLM-as-a-Judge 流程已成为代理安全的事实评估器,然而现有基准在未进行检查的情况下将它们的裁决视为 ground-truth 代理。
大多数 coding-agent benchmarks 会询问 generated code 是否表现正确。这仍然是关键,但 repository-level engineering 正在日益 agent-manage……
随着生产代码的演进,测试套件必须同步演进以保持有效性。现有的测试演进基准在方法级别的粒度上运行,使用 p...
我们介绍 TACO,一个用于开发和自动验证容错和阈值型分布式算法的工具套件。我们的工具套件实现…
数据并行(DP)负载均衡已成为大规模 LLM 服务中的首要瓶颈。当模型通过张量并行在设备之间进行切分时……
多年来,我们像对待其他关键基础设施一样构建 LLM 服务系统:一个单一的通用堆栈,经过多年工程师的手工调优,旨在……
Peak breaking Matrix Multiplication 是一种有前景的技术,可提升深度学习(DL)的性能,尤其是在大语言模型(LLM)的训练和推理中。我们提出了 FalconGEMM,...
高容量关联记忆模型,例如 Kernel Logistic Regression (KLR) Hopfield 网络,已经展示出强大的存储能力,但通常……
线性注意力(Linear Attention,LA)为将大型语言模型(LLMs)扩展到长序列提供了一种有前景的范式,因为它避免了自注意力的二次复杂度。
我们引入 Graph Normalization(GN),一种在图上工作的原理性动力系统,作为可微分的近似引擎,用于 NP 难的 Maximum Weig...
从单目视频进行密集的3D 重建和动态场景跟踪仍然是计算机视觉中的一个重要未解决的挑战。该领域的进展已经……
我们研究扩散Transformer(DiTs)在图像生成中的异常标记。先前的工作表明,视觉Transformer(ViTs)可以产生少量的……
本研究提出了一种基于线性同余生成器(Linear Congruential Generator, LCG)特殊变体的全新确定性优化算法。虽然传统算法……