[Paper] LLMs 改进 LLMs:Agentic Discovery 用于 Test-Time Scaling
测试时扩展(Test-time scaling,TTS)已成为通过在推理期间分配额外计算来提升大型语言模型性能的有效方法。H...
测试时扩展(Test-time scaling,TTS)已成为通过在推理期间分配额外计算来提升大型语言模型性能的有效方法。H...
基于扩散的模型将采样分解为许多小的高斯去噪步骤——这一假设在生成被压缩到少数粗…
解码 imagined speech 从 non‑invasive brain recordings 是具有挑战性的,因为 imagined 数据集稀缺且难以在受试者之间进行时间对齐。
Conformal prediction (CP) 提供了一种无分布假设的、不依赖于特定分布的、不确定性量化方法,并具备有限样本保证。然而,将 CP 应用于图神经网络...
一种用于扩展推理时推理的标准技术是 Self-Consistency,即从 LLM 中采样多个候选答案,并选择最常见的……
空间智能在视觉语言模型(VLMs)中因对在三维世界中进行推理的实际需求而受到研究兴趣的关注。尽管取得了有希望的结果,...
现有的 Flow Matching (FM) 文本到图像模型在多任务对齐下存在两个关键瓶颈:由标量值奖励导致的奖励稀疏性……
我们认为,将奖励分解为加权的、可验证的标准,并使用 LLM judge 对其进行评分,能够提供一种 partial‑credit 优化信号:相反……
Context window expansion 通常被视为对 LLM 的一次直接能力升级,但我们发现它在多代理社会困境中系统性地失效……
虽然近期在推理时学习方面的进展提升了 LLM 在 Text-to-SQL 任务上的推理能力,但当前的解决方案仍然难以在 m...
生成满足定制的 zero-shot 目标函数的人体运动,能够用于可控角色动画和行为合成等应用。
在折扣马尔可夫决策过程(MDPs)中进行指数效用优化的强化学习(RL)缺乏原则性的 value-based algorithms。我们...
Talking-head 生成需要对身份、头部姿态、面部表情和口部动态进行联合建模。现有方法通常只处理其中的一部分……
将自由文本的心脏磁共振 (CMR) 报告转换为可审计的结构化数据仍然是队列构建、纵向策划以及……的瓶颈。
近期的字节级语言模型(LMs)在不依赖子词词汇表的情况下匹配了 token-level 模型的性能,但它们的实用性受到慢…
虽然文本到图像模型在视觉保真度方面取得了显著进展,但忠实实现复杂的视觉意图仍然具有挑战性,因为许多需求……
我们引入了 CUTS‑GPR,这是一种在高维环境中实现数值精确 Gaussian process regression(GPR)的新方法。CUTS‑G 的关键组成部分是……
构建特定场址的传播模型通常需要对详细的三维地图进行射线追踪(ray‑tracing),或开展密集的测量活动(measurement campaigns)。这两种方法都非常昂贵……
分布式处理效应(distributional treatment effects)在均值(means)上可能不可见:一种处理可能保持平均结果不变,同时改变尾部(tails)、模式(modes)、离散程度(dispersion)或罕见事件(rare‑event)……
视觉语言模型(VLMs)引发了对隐私、版权和偏见日益增长的担忧,促使人们采用机器忘记(machine unlearning)来删除敏感知识。然而,e...
学习式延迟(Learning-to-defer,L2D)可以通过将困难/不确定的青光眼筛查病例转交给人工,从而提升筛查安全性,然而标准的公式忽视了专家的可用性。
脉冲神经网络(SNNs)被提出作为在生物学上更合理且能耗更低的传统人工神经网络(ANNs)的替代方案……
当 AI 编码代理打开分支并提交拉取请求(PR)时,有两个问题共同决定监督设计:谁启动工作(操作主体)以及……
机制可解释性论文越来越多地使用因果词汇:circuits、mediators、causal abstraction、monosemanticity。此类主张需要明确的 i...
当 tool-calling agent 选择错误的工具时,失败在执行之前是不可见的:邮件被发送,会议被错过。Probing 12 instruction-t...
选择最佳的 LLM inference 配置需要在 hardware、serving engines、attention backends 和 model architectures 之间进行评估,因为没有一种通用的方案。
确保大型语言模型产生安全、符合政策的输出,需要能够在多个安全维度上扩展的实时内容审核。然而...
性能评估对于评估机器学习(ML)模型的质量以及指导部署决策至关重要。在联邦学习(FL)中,asse...
软件故障仍然是现代 software development 的主要挑战,识别导致故障的 code elements 是一项耗时的 debugging……
Stencil 计算是科学计算中的基础核心,对流体动力学和气候建模等领域的仿真至关重要。然而,...
系统的设计和实现是两个常常由开发团队中不同成员分别完成的任务,且可能相隔数周甚至数月。
去中心化机器学习通常依赖将计算任务(例如梯度评估)外包给不可信的工作节点。现有的鲁棒聚合方法……
Model Context Protocol(MCP)已迅速成为 LLM agents 与 external tools 之间的 interface layer,但它们也带来了 unsafe data flows 的风险。
在评估代码级漏洞(例如由自动分析器发现)的潜在影响时,必须将其置于 t… 的上下文中进行考虑。
自动化漏洞检测在关键基础设施软件中面临一个根本障碍:工业软件通常以剥离的、sy...
Agentic AI 系统越来越多地通过工具、子代理和外部服务来行动,但治理控制仍然通常附加在提示、仪表板……
随着对以 AI 为重点的加速器的投资增长以及它们在超级计算设施中的部署扩大,了解这些架构是否能够高效……
大语言模型(LLMs)的长上下文训练通常采用上下文并行(Context Parallelism, CP)和头部并行(Head Parallelism, HP)进行分布式,但现有的训练系统...
AI-RAN 将 AI 服务和无线接入网(RAN)功能整合到位于网络边缘的统一 GPU 加速基础设施上。然而,计算 sh...
大型语言模型(LLMs)正在将推荐从排序转变为生成任务,但工业部署仍受高延迟的限制……
从观测数据中发现支配的微分方程是科学机器学习中的根本性挑战。现有的 symbolic regression 应用……
脑电图(EEG)是脑机接口和临床神经科学的基石,然而深度学习模型通常在训练和评估时……
我们证明,在一个精确的意义上,一大类前馈神经网络在 PAC 模型中是可学习的(具有有限样本复杂度):每个固定的有限前馈…
现代的 Mixture-of-Experts (MoE) 架构通过刚性的逐层规则分配专家容量:每个 transformer 层拥有一套独立的专家集合。这 c...
GUI grounding 是实现 GUI agents 执行点击、拖拽等任务的关键能力。然而,在像 ScreenSpot 这样的复杂场景中……
大型语言模型通常以单体系统的形式部署,即使应用只需要狭窄的能力子集,也必须使用完整模型,例如……
大型语言模型(LLMs)在解决科学和数学问题方面表现出强大的能力,但它们在生成有效且具有挑战性的……方面仍然困难。
最近的进展表明,large-scale video diffusion models 可以通过首先将视频分解为 intrinsic scene representations,重新用作 neural renderers。