· ai
[Paper] 扩散了解透明性:重新利用 Video Diffusion 进行透明物体深度和法线估计
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...
人类通过视觉观察学习运动,先解释视觉内容再模仿动作。然而,state-of-the-art humanoid locomotion sy...
Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们往往缺乏细粒度的跨模态理解……
时空对齐对于自动驾驶(AD)中端到端(E2E)感知的时间建模至关重要,能够提供有价值的结构和纹理……
生成模型正日益被用于3D视觉,以合成新形状,但仍不清楚它们的生成是否依赖于记忆训练数据。
胰腺肿瘤的早期检测是一个主要的临床难题,主要原因在于肿瘤往往在对比度极低的边缘出现。
提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……
将多模态大语言模型(MLLMs)整合到化学领域有望彻底改变科学发现的方式,但它们理解 d...
大型语言模型(LLM)代理虽然在数字领域表现出色,但由于在形成……方面的挑战,它们在物理世界部署方面存在显著差距。
多模态大型语言模型(LLMs)通过借助广泛的临床知识来解释扫描图像,为医学影像引入了一种新兴范式……