[Paper] 超越表面统计:通过内部表征实现对LLMs的稳健共形预测
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
基于适配器的方法已成为对大型语言模型(LLMs)进行持续学习(CL)的成本有效方案,通过顺序学习低秩更新……
大型语言模型(LLMs)日益依赖链式思考(CoT)推理来解决复杂任务。然而,确保推理轨迹既能……
我们提出了一个用于德国语手语(DGS)童话的 dataset 和 model,用于进行 sentiment analysis。首先,我们对三个层面的 val…
Code localization 是自主软件工程的基石。最近的进展在真实世界问题基准上取得了令人印象深刻的表现。...
人工智能生成内容(AIGC)工具的快速进展,使得可以按需为网页设计创建图像、视频和可视化内容。
语言模型是否能够系统性地概括仍然是一个活跃的争论。然而,经验性能(empirical performance)受包括训练(training)在内的多重因素共同影响……
LLM-as-judge 框架正日益用于自动 NLG 评估,但它们的单实例可靠性仍然了解不足。我们提出一种双管齐下的……
MLP 是现代深度学习(DL)架构中在表格数据监督学习中被广泛使用的主干,AdamW 是用于训练的首选优化器……
在过去的一年里,空间智能受到了越来越多的关注。许多先前的工作从视觉空间智能的角度研究它,其中……
我们研究基于截断正交多项式核构建的支持向量机(SVM)的后训练可解释性。由于相关的再现…
理解情感是智能系统能够与人类互动的基本能力。视觉语言模型(VLM)已经取得了巨大的 p...
节点嵌入充当图神经网络的信息接口,但它们的实证影响常常在不匹配的 backbones、splits 和 … 中报告。
本文介绍了 Prism——首个用于张量程序的符号化超优化器。其核心思想是 sGraph,一种符号化的层次化表示,能够紧凑地……
可靠的不确定性估计对医学图像分割至关重要,因为自动轮廓会用于下游量化和临床决策支持。
同时克隆非正交态的不可能性是量子理论的基础。即使允许近似误差,克隆……
随着 LLM 代理与其他追求目标的代理之间有效且安全互动的重要性日益提升,然而,最近的研究却报告了相反的趋势:LLM …
Looped transformers 通过在更难的问题上增加迭代次数来实现测试时计算的可扩展性,但仍不清楚哪些架构选择能够让……
我们研究在零和矩阵博弈中学习 minimax 策略的问题。Fiegel 等人(2025)最近表明,实现 last‑iterate 收敛在此……
LLM-as-a-judge范式已经成为自动化AI评估流水线的运行核心,但它基于一个未经验证的假设:评审者评估…
Artificial Intelligence 正日益被引入 systems engineering 活动,特别是在 requirements engineering 中,在那里 quality assessment …
幽默是为数不多的认知任务之一,在这些任务中,推理正确与答案正确同等重要。虽然最近的研究评估幽默……
模拟群体层面的用户行为能够在不进行昂贵的在线实验的情况下,实现对 merchant strategies 的可扩展的 counterfactual 评估。然而,构建一个 tr...
Agentic workflows 通过编排多个大型语言模型(LLMs)和工具来执行复杂任务。在目标吞吐量下提供此类工作流时,...
稀疏注意力已被提出作为缓解 transformer 二次成本的一种方式,这是长上下文训练中的核心瓶颈。一个有前景的方向是……
这项工作模拟了cortical neurogenesis的发育过程,从单个stem cell开始,并受gene regulatory rules(derived from mo...)的控制。
为了在空间中导航,大脑利用不同的细胞(如 place cells、grid cells、head direction cells 等)对环境进行内部表征。
Open-weight Small Language Models(SLMs)可以在更低的财务成本下提供更快的本地推理,但可能无法达到商业模型相同的性能水平。
在数据敏感的领域,如医疗保健,跨筒联邦学习(CFL)允许组织在不共享原始数据的情况下协同训练 AI 模型……
Vibe coding 本质上假设通过反馈循环对 LLM 生成的代码进行迭代式精炼。虽然在传统软件任务中有效,但其可靠性……
随着代理系统进入日益多样化的执行环境,轨迹级安全评估和诊断需要能够随之演进的基准。A...
联邦学习(FL)中的通信瓶颈促使了大量研究,旨在降低客户端设备之间交换数据的体积……
Mixture-of-Experts(MoE)模型已成为大规模语言模型的主流架构,但本地部署在根本上仍受内存限制……
在现代数据流系统中,除了传统程序之外,出现了一种能够与流式数据交互的新型实体:AI agents。与传统…
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
随着语言模型日益被用于复杂的自主任务,它们在更长时间范围内进行准确推理的能力变得至关重要。An essentia...
评估 LLMs 具有挑战性,因为基准分数往往无法捕捉模型在真实世界中的实用性。相反,用户常常依赖 “vibe-testing”:非正式的……
修辞性问题的提出不是为了获取信息,而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...
虽然端到端的 Vision-Language-Action(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会导致性能妥协……
虽然大型语言模型(LLMs)已经赋能AI研究代理执行孤立的科学任务,但自动化复杂的真实世界工作流,例如LLM……
序列推荐在学术界和工业界,尤其是电子商务领域,变得日益突出。其主要目标是提取用户偏好…
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
最近的研究表明,(stochastic) gradient descent 会自组织到接近不稳定边界的区域,从而塑造了优化过程以及所找到的解。Momentum...
我们提出 UMI-3D,这是一种多模态扩展的 Universal Manipulation Interface(UMI),用于在具身操作中实现稳健且可扩展的数据收集。虽然 …
On-policy knowledge distillation (OPD) 在其自身的 rollouts 上,在来自 teacher 的 token‑level supervision 下训练 student。并非所有 token 位置的重要性相同……
我们引入 Multistage Conditional Compositional Optimization(MCCO)作为一种在不确定性下进行决策的新范式,它结合了多阶段……
在编程语言中,解析和重写引用是基础工作。受真实的反编译任务的启发,我们将引用重写抽象为 t...
公平性在算法决策中通常在预测空间中定义,其中预测性能——用作决策者(DM)效用的代理……