【论文】语言模型中语法性的隐式表示
语法正确性和可能性是人类语言中不同的概念。预训练语言模型(LMs),作为语言的概率模型,拟合到最大……
语法正确性和可能性是人类语言中不同的概念。预训练语言模型(LMs),作为语言的概率模型,拟合到最大……
在本说明中,我们报告了与Grok合作取得的五项数学发现,所有这些发现随后都已被作者验证。它们包括……
长时程搜索代理必须在推理、调用工具和观察信息的过程中管理快速增长的工作上下文。天真地累积所有中间…
一个 d×d 线性记忆能够存储多少键值关联?我们展示,答案不仅取决于记忆矩阵中的 d^2 自由度,...
本文报告了 LoViF 2026 PhyScore 挑战赛,这是一个针对世界模型生成视频在 2D 与 4D 基因层面进行整体质量评估的竞赛。
深度搜索已成为前沿多模态代理的关键能力,使模型能够通过主动搜索、证据验证来解决复杂问题,...
迄今为止,估计机器学习中期望损失的最常见方法是抽取样本,对每个样本计算损失,然后取经验平均值。Ho...
预训练的 Transformer 能够在不进行权重更新的情况下,从提示中提供的示例中学习,这是一种被称为 in-context learning 的显著能力。
背景:现有的 MRI LLM 基准主要依赖于复习书籍的多项选择题,而顶级专有模型已经在这些题目上得分很高,限制了辨别能力……
Behavior Cloning(BC)已成为机器人学习的高效范式。然而,BC缺乏在示范之后进行在线自我改进的机制。
Self-consistency 通过为一个问题生成多个采样答案并测量它们的一致性来检测 hallucinations,但这需要重复解码和 ca...
进化计算长期以来一直承诺提供高性能优化工具以及对达尔文进化的严格科学模拟……
对组织病理学图像的准确分析对疾病诊断和治疗方案的制定至关重要。全切片图像(WSIs),将组织标本数字化……
合成 physics‑grounded 3D 资产是交互式虚拟世界和 embodied AI 的关键瓶颈。现有方法主要关注静态……
Zero-shot 异常定位通过视觉语言模型(VLMs)提供了一种有吸引力的方法用于稀有病理检测,但其性能在根本上...
我们展示了针对 SemEval-2026 第9任务:Multilingual Polarization Detection 的系统,这是一项跨越 22 种语言的二分类任务。我们的方法通过微调 …
Transformer 架构已被广泛用于时间序列预测,但它们在 NLP 中强大表现的表征机制是否同样适用于……
相较于 hard‑coded 的传统对应物,learned codecs 的一个主要差异化因素是它们能够直接针对……进行优化。
去中心化金融(DeFi)协议目前中介的价值已超过 1000亿美元,其中包括受监管的 stablecoins 和作为抵押品部署的 tokenized assets……
本文回顾了一项由高中生和早期本科生团队在研究生导师指导下进行的 AI 研究项目……
Large Language Models (LLMs) 经常生成看似合理但不符合事实的内容,这种现象被称为 hallucination。虽然现有的检测方法 typica...
我们引入文本语料库的 **Concept Field**:一种局部漂移场,具备点状不确定性,在句子嵌入空间中通过句子之间的差值进行估计。
我们对50个大型语言模型(LLMs)施行45份经过验证的心理测量问卷,以识别LLMs在心理测量上存在差异的维度。U...
我们识别并证明了支配长序列模型的一个基本权衡:没有任何模型能够同时实现 (i) 与序列长度无关的 per‑step computation……
前沿模型日益采用 Mixture-of-Experts (MoE) 架构,以在降低成本的同时实现大模型性能。然而,在 HP 上训练 MoE 模型……
Per-instance algorithm selection (PIAS) 利用一组算法之间的互补性,通过决定在给定实例上运行哪个算法来实现。T...
企业希望 AI 代码补全既高质量又保持私密,但他们面临一种矛盾:专有模型能够提供更好的结果,却有泄露隐私的风险。
汽车电子控制单元(ECU)是复杂的系统,拥有数百个独立功能、众多软件组件以及多种相互依赖关系……
大型语言模型(LLMs)已获得广泛的关注,并且随着时间的推移不断提升,使软件开发者能够将它们用于各种代码相关的任务。
Bug fixing 是软件开发中一项复杂且耗时的任务。Bug localization 研究往往侧重于自动化工具的准确性,这些工具能够…
生成式人工智能(GenAI)在编程中的使用日益增多,但何时以及在何处使用 GenAI 工具能够提升生产力仍不明确。E...
检索增强生成(RAG)管道用于代码补全依赖于 chunking 将源文件划分为可检索的单元,但 chunking 策略是 …
由 Nsight Compute 等工具生成的 GPU kernel 性能分析报告细节丰富,但往往难以解释。为了实现最佳的每…
生成式推荐系统(GR)推理将嵌入热缓存(EMB)和 KV 缓存直接竞争有限的 GPU HBM:为其中一个分配更多内存会……
计算流体动力学和流体-结构相互作用模拟涉及移动和变形的物体是极其困难的。在这项工作中,我们提出了一个……
尾延迟在大规模运行的同步预训练任务的性能中占主导地位。我们描述了一种三管齐下的方法:(1) 一种新的 RDMA‑b…
理解视觉计算背后的神经机制长期以来一直是神经科学的核心挑战。最近基于对齐的方法已经impr...
交互式多目标优化系统面临预算分配困境:可以将资源用于昂贵的目标评估,或用于引导…
Physical neural networks (PNNs) 将计算直接嵌入材料动力学中,包括分子、化学、生物、光子、memristive 和机械……
音视智能(Audio-Visual Intelligence,AVI)已成为人工智能的核心前沿,桥接听觉和视觉模态,使机器能够……
视觉对应跨越图像到图像(2D-2D)、图像到点云(2D-3D)以及点云到点云(3D-3D)的几何匹配构成了基础……
文本到图像的生成随着 diffusion models 的发展而迅速进步,从 CLIP 和 T5 条件化发展到统一系统,在这些系统中单一的 LLM 主干已经……
临床 LLM 通常通过增大模型规模、上下文长度、检索复杂度或推理时计算量来进行扩展,隐含的期望是高...
深度搜索能力已成为前沿大型语言模型(LLM)代理的不可或缺的竞争力,然而它们的开发仍然主要由ind...
我们提出了 HeadsUp,一种可扩展的前馈方法,用于从大规模多摄像头设置中重建高质量的 3D Gaussian 头部。我们的方法采用了...
AI 系统正进入医疗、金融和国防等关键领域,但仍然容易受到对抗性攻击。虽然 AI red teaming 是主要的 …
Reasoning-intensive retrieval 旨在呈现支持 downstream reasoning 的证据,而不仅仅是匹配 topical similarity。此能力正在…
在机器学习和自然科学中,使用有限的密度评估对未归一化的多模态分布进行采样仍然是一个根本性的挑战。S...