[Paper] 超越表面统计:通过内部表征实现对LLMs的稳健共形预测
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
就读AP Computer Science Principles(CSP)课程的中学生通常会利用网络资源(例如教程、Q&A网站)来更好地……
软件工程研究在过去几十年中在产出和参与度方面都经历了快速增长。然而,人们仍然对该领域的能力……
代码生成是指根据用户需求自动生成可执行程序。最近,研究人员已经探索了提升 corr… 的方法。
基于适配器的方法已成为对大型语言模型(LLMs)进行持续学习(CL)的成本有效方案,通过顺序学习低秩更新……
大型语言模型(LLMs)日益依赖链式思考(CoT)推理来解决复杂任务。然而,确保推理轨迹既能……
最近的工作提出了 test-time alignment 方法,依赖一个小的 aligned model 作为代理,引导更大的 base(unaligned)model 的生成。T...
我们提出了一个用于德国语手语(DGS)童话的 dataset 和 model,用于进行 sentiment analysis。首先,我们对三个层面的 val…
大型语言模型 (LLMs) 在软件开发中的快速普及,使得区分 AI 生成的代码和人工编写的代码成为一项关键挑战。
Code localization 是自主软件工程的基石。最近的进展在真实世界问题基准上取得了令人印象深刻的表现。...
传统的基于帧的相机能够捕获丰富的上下文信息,但在动态场景中受到时间分辨率有限和运动模糊的影响。Event camera...
本文聚焦于将 flow matching models 与人类偏好对齐。一个有前景的方法是通过直接反向传播 reward gradients 来进行 fine‑tuning …
本文提出了一种图像重新照明的方法,能够在照片中对多个光照属性进行精确且连续的控制。我们……
人工智能生成内容(AIGC)工具的快速进展,使得可以按需为网页设计创建图像、视频和可视化内容。
高级自动驾驶需要能够对多模态未来不确定性进行建模且在闭环交互中保持鲁棒性的运动规划器。A...
语言模型是否能够系统性地概括仍然是一个活跃的争论。然而,经验性能(empirical performance)受包括训练(training)在内的多重因素共同影响……
LLM-as-judge 框架正日益用于自动 NLG 评估,但它们的单实例可靠性仍然了解不足。我们提出一种双管齐下的……
许多 SLT 系统悄然假设,简短的手语片段可以直接映射到口语单词。这个假设会失效,因为手语者常常创造 mea...
视频生成已经快速发展,最近的方法能够产生越来越逼真的动画效果。然而,现有的基准——主要为……
MLP 是现代深度学习(DL)架构中在表格数据监督学习中被广泛使用的主干,AdamW 是用于训练的首选优化器……
在过去的一年里,空间智能受到了越来越多的关注。许多先前的工作从视觉空间智能的角度研究它,其中……
我们研究基于截断正交多项式核构建的支持向量机(SVM)的后训练可解释性。由于相关的再现…
高效的原语空间分配是3D Gaussian Splatting的基础,因为它直接决定了表示之间的协同作用……
3D policy learning 预计能够实现更优的泛化和跨形体转移,但进展受到训练不稳定和严重过拟合的阻碍。
理解情感是智能系统能够与人类互动的基本能力。视觉语言模型(VLM)已经取得了巨大的 p...
基于电路切分的混合高性能计算(HPC)-量子工作负载将大型量子电路分解为独立的片段,但现有的...
节点嵌入充当图神经网络的信息接口,但它们的实证影响常常在不匹配的 backbones、splits 和 … 中报告。
本文介绍了 Prism——首个用于张量程序的符号化超优化器。其核心思想是 sGraph,一种符号化的层次化表示,能够紧凑地……
可靠的不确定性估计对医学图像分割至关重要,因为自动轮廓会用于下游量化和临床决策支持。
在本文中,我们专注于自动化软件开发生命周期(SDLC)中两项广泛使用的 Verification and Validation (V&V) 活动:Soft…
同时克隆非正交态的不可能性是量子理论的基础。即使允许近似误差,克隆……
随着 LLM 代理与其他追求目标的代理之间有效且安全互动的重要性日益提升,然而,最近的研究却报告了相反的趋势:LLM …
Looped transformers 通过在更难的问题上增加迭代次数来实现测试时计算的可扩展性,但仍不清楚哪些架构选择能够让……
Speculative decoding(SD)通过让轻量级草稿模型提出输出,而让更强大的目标模型进行验证,从而加速大语言模型的推理。
我们研究在零和矩阵博弈中学习 minimax 策略的问题。Fiegel 等人(2025)最近表明,实现 last‑iterate 收敛在此……
LLM-as-a-judge范式已经成为自动化AI评估流水线的运行核心,但它基于一个未经验证的假设:评审者评估…
Artificial Intelligence 正日益被引入 systems engineering 活动,特别是在 requirements engineering 中,在那里 quality assessment …
幽默是为数不多的认知任务之一,在这些任务中,推理正确与答案正确同等重要。虽然最近的研究评估幽默……
在诸如医疗等高风险领域,机器学习不仅需要强大的预测性能,还需要可靠的不确定性量化(UQ)来……
模拟群体层面的用户行为能够在不进行昂贵的在线实验的情况下,实现对 merchant strategies 的可扩展的 counterfactual 评估。然而,构建一个 tr...
Agentic workflows 通过编排多个大型语言模型(LLMs)和工具来执行复杂任务。在目标吞吐量下提供此类工作流时,...
稀疏注意力已被提出作为缓解 transformer 二次成本的一种方式,这是长上下文训练中的核心瓶颈。一个有前景的方向是……
LLMs 正在证明其在 machine translation 方面的熟练,尽管由于其 generative nature,它们有时会以各种方式 overgenerate。这种 overgeneration……
这项工作模拟了cortical neurogenesis的发育过程,从单个stem cell开始,并受gene regulatory rules(derived from mo...)的控制。
虽然现代的 AI 为中心的数据中心在很大程度上依赖 SmartNIC,但现有设备强加了一个硬性的权衡。商业 SmartNIC 提供高带宽和易……
这份 beta 技术报告探讨了如何表示可复用经验,以便它能够作为有效的 test-time control 并作为 iter... 的 substrate。
为了在空间中导航,大脑利用不同的细胞(如 place cells、grid cells、head direction cells 等)对环境进行内部表征。
Open-weight Small Language Models(SLMs)可以在更低的财务成本下提供更快的本地推理,但可能无法达到商业模型相同的性能水平。