[Paper] Socrates Loss: 通过利用未知统一置信度校准与分类
深度神经网络尽管具有很高的准确率,但往往表现出置信度校准不足,限制了它们在高风险应用中的可靠性。当前的…
深度神经网络尽管具有很高的准确率,但往往表现出置信度校准不足,限制了它们在高风险应用中的可靠性。当前的…
我们提出 (Experience‑Modulated Biologically‑inspired Emergent Reasoning),一种混合认知架构,重新组织大型语言模型之间的关系……
现代机器学习方法已被提出用于检测外星样本中的生命,利用其区分生物性与非生物性样本的能力。
在3D计算机视觉中,寻找图像之间的匹配关键点是一个核心问题。然而,现代匹配器在处理大幅平面旋转时表现不佳。A straightfo...
自主离网光伏系统的稳定运行要求依赖遵循大气热力学的太阳能预测算法。Cont...
在本工作中,我们研究了人-物交互视频生成(Human-Object Interaction Video Generation,HOIVG),其目标是基于 t 合成高质量的人-物交互视频。
利用诸如大五人格等心理构念,大语言模型(LLMs)可以模仿特定的个性特征并预测用户的个性。Wh...
我们提出了 SyncFix,一个在基于扩散的重建场景细化过程中强制跨视图一致性的框架。SyncFix 将细化……
Tool-augmented Large Language Model (LLM) agents 已经展示了在自动化复杂、多步骤真实世界任务方面的惊人能力,但仍然存在脆弱性……
High dynamic range (HDR) 图像提供了对场景辐射的丰富且忠实的表示,但由于其不匹配……,对 generative models 仍然具有挑战性。
大型多模态模型(LMMs)在通用视觉-语言理解方面取得了显著进展,然而,它们在需要 p... 的任务上仍然受限。
对 open-play soccer tactics 的建模是一项艰巨的挑战,因为比赛具有 stochastic、multi-agent 的特性。现有的计算方法通常 p...
语言变化既反映又塑造社会过程,而基础概念的语义演变提供了历史和社会的可衡量痕迹。
Kullback-Leibler (KL) divergence 是信息论中的一个基本概念,用于量化两个概率分布之间的差异。在 the co...
通用一阶方法(GFOM)是一类灵活的迭代算法,通过矩阵‑向量乘法和逐元素非线性操作来更新状态向量。
Serverless 提供商通过优化 deployment density 来实现高 resource utilization:即每台 host server 上可以部署多少应用程序。然而,achi...
Spiking Transformers 将 Transformers 的可扩展性与 Spiking Neural Networks (SNNs) 的稀疏、节能特性相结合,已实现……
随着高性能计算和 AI 工作负载日益依赖 GPU,保持在快速演进的硬件代际中的高性能……
云原生架构是关于构建和运行可扩展的微服务应用,以充分利用云环境。托管的 Kubernetes …
量子计算社区正日益将 quantum processors 定位为经典 HPC 工作流中的加速器,类似于 GPUs 和 TPUs。然而...
Multi-model LLM routing 已成为一种有效的方法,通过将每个 prompt 分配给 …,在保持输出质量的同时降低服务成本和延迟。
Prompt learning 是一种参数高效的视觉语言模型方法,但其在标签噪声下的鲁棒性研究较少。视觉内容包含……
视觉语言模型(VLMs)仍然在视觉感知任务(如空间理解和视点识别)上表现困难。一个可能的促成因素是...
大型视觉语言模型(LVLMs)在多模态推理方面表现出色,但常常出现幻觉并以高度确定性给出错误答案,……
在生产环境中维持 exascale 性能需要在真实部署约束和需求下才会出现的工程选择和运维实践。
近期在大型语言模型(LLMs)方面的进展使得大规模生成高度流畅且具欺骗性的类新闻内容成为可能。虽然之前的研究已经……
Norm,形式理论语言学家,和 Claudette,计算语言科学家,愉快地讨论现代语言模型是否能够……
我们提出了 RecaLLM,这是一套经过后训练的推理语言模型,旨在有效利用长上下文信息。In‑context retrieval(上下文检索),用于识别……
模型投毒攻击对联邦学习(FL)构成了显著的安全威胁。大多数现有的模型投毒攻击依赖于合谋,需要对手...
成功的 machine learning 在 graphs 或 networks 上需要 embeddings,这些 embeddings 不仅将 nodes 和 edges 表示为 low-dimensional vectors,还要保留 …
《易经》King Wen序列(约公元前1000年)将64卦——六维二进制空间的状态——按一种模式排列,这一模式长期困扰着学者……
Von Economo neurons (VENs) 是大型双极投射神经元,仅在具有复杂...的物种的前扣带皮层 (ACC) 和额叶岛叶中发现。
在具有多个异构加速引擎的系统级芯片(SoC)上部署深度神经网络(DNN)具有挑战性,而且大多数部署框架无法完全 …
现代 LLM 强化学习(RL)工作负载需要一个高效的 weight transfer system,以在异构计算资源上扩展训练……
社会主体既内化集体规范,又通过创造性行动重塑这些规范,然而计算模型尚未捕捉到这一双向过程……
人体拟合,将诸如 SMPL 等参数化人体模型与穿衣人类的原始 3D 点云对齐,是下游任务的关键第一步。
自由形态骨骼紧贴表面,能够有效捕捉非刚性变形,但缺乏直观控制所需的运动学结构。
代理式多模态模型的出现使系统能够主动与外部环境交互。然而,当前的代理在…
Text-to-video diffusion models 已经实现了开放式视频合成,但在生成提示中指定的正确对象数量时常常遇到困难。
事件相机在头戴式设备的单目自我视角3D人体姿态估计中提供了多种优势,例如毫秒级时间分辨率,hig...
机器人操作可变形物体代表了具身学习中数据密集的范式,其中形状、接触和拓扑以相互共演的方式……
本文针对从长视频序列进行大规模3D场景重建的任务。近期的前馈重建模型已经展示出有希望的 r...
多模态混合专家(MoE)模型在视觉语言任务上取得了显著的性能。然而,我们发现了一种令人困惑的现象,称为 Seei…
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…
Group Relative Policy Optimization (GRPO) 已成为推动最近在多模态大型语言模型领域进展的事实上的强化学习 (RL) 目标。
Visual decoding from brain signals 是计算机视觉和神经科学交叉领域的关键挑战,需要能够桥接神经表征……
我们引入 RewardFlow,这是一种无反演框架,在推理时通过多奖励 Langevin 动力学引导预训练的 diffusion 和 flow‑matching 模型。
个人 AI 工具现在可以通过自然语言请求生成,但它们在创建后往往仍然是孤立的。我们提出了 PSI,一种共享状态的架构……