· ai · - · -
【论文】Spa3R:预测空间场建模用于3D视觉推理
虽然视觉语言模型(VLMs)在二维视觉理解方面表现出色,但它们对三维空间的理解和推理能力——空间的基石——……
虽然视觉语言模型(VLMs)在二维视觉理解方面表现出色,但它们对三维空间的理解和推理能力——空间的基石——……
Uniform-state discrete diffusion models 在少步生成和引导方面表现出色,因为它们具备自我纠正的能力,使其相较于 autoregressive 模型更受青睐。
基于图的医学图像分割使用边界图来表示解剖结构,提供固定拓扑的标记点和固有的人口层面…
深度学习显著推动了自动化脑肿瘤诊断的发展,但临床采用仍受限于可解释性和计算约束……
文本到图像检索是视觉语言学习中的基础任务,但在真实场景中,它常常受到用户查询简短且信息不足的挑战。
视觉-语言-动作(VLA)模型正通过用统一的端到端架构取代模块化流水线,推动自动驾驶的发展。然而,当前的 VLA……
反事实推断使临床医生能够对患者结果提出“如果…会怎样”的问题,但标准方法假设特征独立性和同步……
患者生成的文本,如安全消息、调查和访谈,包含了丰富的患者声音(PV)表达,反映了交流行为……
在安全关键的分类中,失败的代价往往是不对称的,然而贝叶斯深度学习仅用一个标量 μ 来概括认知不确定性。
大型语言模型(LLMs)正日益被部署为多步骤决策代理,其中有效的奖励设计对于引导学习至关重要。Al...
选择性状态空间模型(SSMs)已迅速成为大语言模型的有力骨干,尤其适用于长上下文工作负载。然而在部署…
高级推理通常需要 Chain-of-Thought 提示,这种方法准确,但会导致不可接受的延迟以及巨大的测试时推理成本。Th...