[论文] MoRight:运动控制做对了
生成动作控制视频——在用户指定的动作驱动下,实现自由选择视点的物理上合理的场景动态——需要两种能力……
生成动作控制视频——在用户指定的动作驱动下,实现自由选择视点的物理上合理的场景动态——需要两种能力……
生成式人工智能(AI)的快速增长带来了前所未有的计算需求,导致能源足迹显著增加。
多元对齐已成为大型语言模型(LLMs)发展中的关键前沿,奖励模型(RMs)作为核心机制……
扩大机器人学习的规模可能需要包含丰富且长期交互的人类数据,且这些数据来源于真实环境。现有的收集此类数据的方法……
training data 的选择如何影响 AI model?这个问题对 interpretability、privacy 和 basic science 具有核心重要性。其核心在于……
在本文中,我们推导了在高维中心极限定理下,由异步 Q 产生的 Polyak‑Ruppert 平均迭代的收敛速率。
命题线性时序逻辑(LTL)是一种流行的形式化方法,用于指定软件、网络等的期望需求以及安全和隐私策略。
低资源语言对使用大型语言模型(LLMs)的机器翻译构成挑战,因为这些模型需要大量的训练数据。一个潜在的 w...
神经网络日益增长的复杂性阻碍了在资源受限设备上部署分布式机器学习。拆分学习(Split learning,SL)提供了一种…
多实例学习(MIL)是计算病理学中用于千兆像素全切片图像(WSI)分类的主导框架。然而,当前的MIL……
先进堆的实时监督控制需要对全厂热工水力状态进行精确预测,包括物理传感器所在的位置……
GROMACS 是经典分子动力学(MD)的事实标准。AI 驱动的原子间势能的兴起,旨在通过 MD 实现接近量子水平的精度。
随着大型语言模型(LLMs)越来越多地在敏感用户数据上进行训练,理解隐私在语言学习中的基本代价变得至关重要。
随着大型语言模型(LLMs)从静态聊天机器人演变为自主代理,主要的漏洞面从最终输出转向中间……
现代 recommendation models 的参数已增长至数万亿。随着 cluster 规模扩展到约 O(1k),distributed training 的瓶颈从计算…
确保密文不可区分性是密码学安全的基础,但在实际实现和混合系统中经验性地验证这一属性……
上皮组织通过细胞之间的局部机械相互作用动态重塑,这一过程被 vertex models 很好地捕捉。然而,它们拥有众多可调参数……
虽然传统的优化问题常常是孤立研究的,但如今许多现实世界的问题需要多个优化组件之间的相互依赖……
静态的“train then deploy”范式从根本上限制了大型语言模型(LLMs)在面对持续的…
Churn flow——垂直两相流中的混沌、振荡状态——在过去40多年里缺乏定量的数学定义。我们首次…
大型视觉语言模型可能在图像描述中产生对象幻觉,这凸显了有效检测和缓解策略的需求。P...
字符错误率(CER)是评估光学字符识别(OCR)质量的关键指标。然而,该指标假设文本已经…
在强化学习(RL)中,给定一个提示(prompt),我们从模型中采样一组补全(completions)并对它们进行评分。随后会出现两个问题:哪些补全应该获得概率质量(probability mass),以及……
MLLMs 已成功应用于多模态嵌入任务,但它们的生成推理能力仍未得到充分利用。直接将 cha...
是否大型语言模型(LLMs)能够形成连贯的内部世界模型仍是核心争论。传统的下一标记预测(Next-Token Prediction,NTP)侧重于单个……
人工智能治理存在盲点:AI 系统用于行动的机器身份。AI agents、service accounts、API tokens,以及 auto...
高效的数据加载仍然是近期量子机器学习的瓶颈。现有方案(angle、amplitude 和 basis 编码)要么未充分利用 …
本文介绍了多项式混合器(Polynomial Mixer,PoM),这是一种具有线性复杂度的新型 token mixing 机制,可直接替代 self-attention....
计算机使用代理有望在广泛的数字经济活动中提供帮助。然而,当前的研究主要集中在短期视角……
本研究提出了一种轻量级多模态适配框架,以弥合 RGB 预训练 VLMs 与热红外影像之间的表征差距,并……
大型语言模型(LLM)代理正日益在多代理环境中充当人类代表,在这种环境中,代表代理整合多样的同行…
现代基于Transformer的语言模型在自然语言处理任务中表现出色,但它们的潜在语义空间仍然在很大程度上未被……
Graphics Program Synthesis 对于解释和编辑视觉数据至关重要,有效促进了将静态视觉内容逆向工程为可编辑的形式……
人格特质在自然语言中被丰富地编码,而在人工文本上训练的大型语言模型(LLMs)在以提示为条件时可以模拟人格。
Large Language Models (LLMs) 在程序修复方面表现出色,但常常出现过度编辑的问题,即过多的修改会覆盖正确的代码……
Neural network pruning 可以被表述为一个 combinatorial optimization 问题,但大多数现有方法依赖于忽视复杂 int... 的 greedy heuristics。
在当今的 software architecture 中,large language models (LLMs) 充当 software architecture co-pilots。然而,目前没有 benchmark 来评估 large...
Web 应用程序在很大程度上依赖超链接来连接不同的信息资源。然而,网络的动态特性导致链接腐烂(link rot),即目标…
预训练的扩散模型推动了全能修复(All-in-One Restoration,AiOR)的显著进展,提供了更好的感知质量和泛化能力。Ho...
在本文中,我们开发了一种基于分层的 Signal Temporal Logic (STL) 语义,其中每个原子谓词被解释为 membership test in……
我们研究 physics-informed neural networks (PINNs) 作为求解半线性偏微分方程最优控制的数值工具。我们首先回顾 c...
要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner,需要什么条件?最强大的 vision-language model……
专有 AI 系统最近在复杂的基于证明的问题上展示了令人印象深刻的能力,据报道在 2025 Inte... 中实现了 gold-level performance。
可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLMs)的推理能力。然而,它面临着…
梯度归一化在深度学习优化中至关重要,因为它能够稳定训练并降低对尺度的敏感性。对于深层架构,参数…
随着大型语言模型代理从软件工程(SWE)任务向机器学习工程(MLE)迈进,验证代理行为变得……
机器学习模型,尤其是深度神经网络,正日益在诸如医疗保健、环境预测等风险敏感领域中得到部署,……