循环 Transformer 的稳定性与泛化
Looped transformers 通过在更难的问题上增加迭代次数来实现测试时计算的可扩展性,但仍不清楚哪些架构选择能够让……
Looped transformers 通过在更难的问题上增加迭代次数来实现测试时计算的可扩展性,但仍不清楚哪些架构选择能够让……
Speculative decoding(SD)通过让轻量级草稿模型提出输出,而让更强大的目标模型进行验证,从而加速大语言模型的推理。
我们研究在零和矩阵博弈中学习 minimax 策略的问题。Fiegel 等人(2025)最近表明,实现 last‑iterate 收敛在此……
LLM-as-a-judge范式已经成为自动化AI评估流水线的运行核心,但它基于一个未经验证的假设:评审者评估…
Artificial Intelligence 正日益被引入 systems engineering 活动,特别是在 requirements engineering 中,在那里 quality assessment …
幽默是为数不多的认知任务之一,在这些任务中,推理正确与答案正确同等重要。虽然最近的研究评估幽默……
在诸如医疗等高风险领域,机器学习不仅需要强大的预测性能,还需要可靠的不确定性量化(UQ)来……
模拟群体层面的用户行为能够在不进行昂贵的在线实验的情况下,实现对 merchant strategies 的可扩展的 counterfactual 评估。然而,构建一个 tr...
Agentic workflows 通过编排多个大型语言模型(LLMs)和工具来执行复杂任务。在目标吞吐量下提供此类工作流时,...
稀疏注意力已被提出作为缓解 transformer 二次成本的一种方式,这是长上下文训练中的核心瓶颈。一个有前景的方向是……
LLMs 正在证明其在 machine translation 方面的熟练,尽管由于其 generative nature,它们有时会以各种方式 overgenerate。这种 overgeneration……
这项工作模拟了cortical neurogenesis的发育过程,从单个stem cell开始,并受gene regulatory rules(derived from mo...)的控制。
虽然现代的 AI 为中心的数据中心在很大程度上依赖 SmartNIC,但现有设备强加了一个硬性的权衡。商业 SmartNIC 提供高带宽和易……
这份 beta 技术报告探讨了如何表示可复用经验,以便它能够作为有效的 test-time control 并作为 iter... 的 substrate。
为了在空间中导航,大脑利用不同的细胞(如 place cells、grid cells、head direction cells 等)对环境进行内部表征。
Open-weight Small Language Models(SLMs)可以在更低的财务成本下提供更快的本地推理,但可能无法达到商业模型相同的性能水平。
Pareto优化通过进化多目标算法已被证明能够高效求解受约束的单调子模函数。传统上,...
代码优化仍然是软件开发的核心目标,然而现代编译器在处理庞大的优化空间时面临困难。虽然最近的研究…
Prefill-decode(PD)解耦已成为大规模 LLM 服务的标准架构,但在实际中,它的部署边界仍然由……
对计算能力日益增长的需求促使云服务提供商采用多NUMA服务器,并向客户提供多NUMA虚拟机。然而...
Generative AI 正在改变研究软件的开发方式,但快速的 AI‑assisted development 可能削弱连续性、可追溯性和方法论的清晰性……
作为当前人工智能(AI)的趋势,大型基础模型正日益被用作 AI 服务的核心。然而,即使在训练之后,...
Android 应用是基于抽象核心 Android 系统功能的 API 构建的。这些 API 在随 Android 分发的多个文件中正式文档化。
在数据敏感的领域,如医疗保健,跨筒联邦学习(CFL)允许组织在不共享原始数据的情况下协同训练 AI 模型……
Vibe coding 本质上假设通过反馈循环对 LLM 生成的代码进行迭代式精炼。虽然在传统软件任务中有效,但其可靠性……
随着代理系统进入日益多样化的执行环境,轨迹级安全评估和诊断需要能够随之演进的基准。A...
使用自主代理解决现实世界的软件工程(SWE)问题需要复杂、长期的推理。当前的流水线受到 un... 的瓶颈。
联邦学习(FL)中的通信瓶颈促使了大量研究,旨在降低客户端设备之间交换数据的体积……
在许多实际场景中,需要求解的问题实例非常相似,先前优化运行中获得的知识有可能被利用……
Mixture-of-Experts(MoE)模型已成为大规模语言模型的主流架构,但本地部署在根本上仍受内存限制……
在现代数据流系统中,除了传统程序之外,出现了一种能够与流式数据交互的新型实体:AI agents。与传统…
长视频理解对视觉语言模型(VLM)而言本质上具有挑战性,因为帧数庞大。每个视频帧通常……
Seedance 2.0 是一种全新的原生多模态音视频生成模型,于2026年2月初在中国正式发布。与其前代相比,Seed…
基于多模态大型语言模型(MLLM)的现有分割模型,例如 LISA,常常因其无法处理新出现或新兴实体而面临困难。
对三维场景的空间推理是具身智能的核心能力,但持续的模型改进仍受到成本的瓶颈限制。
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
流式 3D 重建旨在从视频流中恢复 3D 信息,如相机位姿和点云,这需要几何精度,t...
随着语言模型日益被用于复杂的自主任务,它们在更长时间范围内进行准确推理的能力变得至关重要。An essentia...
评估 LLMs 具有挑战性,因为基准分数往往无法捕捉模型在真实世界中的实用性。相反,用户常常依赖 “vibe-testing”:非正式的……
我们考虑针对矿池的区块拦截攻击,尤其是最先进的 Power Adjusting Withholding (PAW) 攻击。我们提出了一种推广……
虽然音视频语言模型(AVLMs)在最近几年取得了显著进展,但它们的可靠性受到跨模态幻觉的瓶颈限制。
修辞性问题的提出不是为了获取信息,而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...
虽然端到端的 Vision-Language-Action(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会导致性能妥协……
LLM 推理轨迹存在复杂缺陷——*Step Internal Flaws*(逻辑错误、幻觉等)和*Step-wise Flaws*(思考过度、思考不足……)。
虽然大型语言模型(LLMs)已经赋能AI研究代理执行孤立的科学任务,但自动化复杂的真实世界工作流,例如LLM……
序列推荐在学术界和工业界,尤其是电子商务领域,变得日益突出。其主要目标是提取用户偏好…
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
Large Language Models (LLMs) 现在能够生成高度流畅、类人文本。它们支持许多应用,但也引发了诸如大…的担忧。