[Paper] 停止漂移:通过元认知推理实现高效 Vision-Language Navigation
无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动,能够遵循指令并探索 3D 环境。然而,现有的 approa...
无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动,能够遵循指令并探索 3D 环境。然而,现有的 approa...
近期的流媒体视频理解方法日益依赖复杂的记忆机制来处理长视频流。我们用一种简单的…来挑战这一趋势。
现有的视频对象移除方法在对对象后面的内容进行inpainting以及纠正外观层面的伪影(如阴影和反射)方面表现出色。
近期,多模态大型语言模型在统一的文本和图像理解与生成方面取得了强劲的性能,但要扩展这种原生能力……
Long-horizon 对话代理 需要 持久记忆 以实现 连贯推理,然而 不受控制的 累积 会导致 时间衰减 和 虚假记忆 的 传播……
从空间和时间上稀疏的观测中重建完整的 spatio-temporal dynamics 仍然是复杂系统中的核心挑战,因为测量可能…
我们提出了 TRACE,一个基于网格引导的 3DGS 编辑框架,实现了自动化、高保真度的场景转换。通过使用显式的 3…
基于基元的方法,如 3D Gaussian Splatting,最近已成为新视角合成及相关重建任务的最先进技术。Compa...
本研究调查了多模态大型语言模型(LLMs)识别和解释误导性可视化的能力,并识别这些观…
虽然自监督的3D异常检测假设获取高精度点云在计算上成本高昂,但在实际制造场景中……
随着体育训练日益数据化,主要依赖经验和目视观察的传统飞镖教练已越来越无法满足高水平……
VisiPrint:AI 驱动的 3D 打印对象美学预览 设计师、制造者以及其他创作者经常使用 3D 打印来快速原型化各种…
使用视频生成模型对场景进行建模近年来已引起日益增长的研究兴趣。然而,大多数现有方法依赖于透视视频……
视频扩散模型展现出诸如解迷宫和拼图等新兴推理能力,但人们对它们在生成过程中的推理方式知之甚少……
AI辅助编码已迅速重塑软件实践和研究工作流,但当今的模型仍然难以为复杂的三维地质力学代码生成正确的结果。
伪装目标检测(Camouflaged object detection,COD)旨在识别与背景高度融合的目标。近期研究表明,optical characteristics……
增强现实(AR)设备配备头戴显示器(HMD),能够在手术期间将三维术前影像数据直接叠加到患者身上。
Multimodal deep learning 通过整合 histopathology 和 genomic data 提高了脑肿瘤的预后准确性,然而 volumetric M...
理解大脑结构与功能的相互作用是解释智力的关键,但将它们联合建模具有挑战性,因为结构和功能……
Surgical video understanding 对于 computer-assisted interventions 至关重要,然而现有的 surgical foundation models 仍受限于数据规模有限,...
外科手术本质上复杂且风险高,需要广泛的专业知识和持续的专注,以便在不断变化的术中场景中顺利导航。Computer...
对有药物使用启动风险的青少年进行早期识别至关重要,但却很困难,因为大多数预测因素将连通性视为静态或交叉……
自动化放射学报告摘要旨在将冗长的发现提炼为简洁的临床印象,但现有的多模态模型常常在...方面遇到困难。
始终开启的 edge cameras 生成连续的视频流,其中冗余帧会通过挤占 top‑k 搜索的正确结果,降低 cross‑modal retrieval 的效果。T...
对联邦学习(FL)的后门攻击通常使用合成的角落补丁或分布外(OOD)模式进行评估,这些模式不太可能出现……
合成 human motion 发展迅速,但 realistic hand motion 和 bimanual interaction 仍未得到充分研究。Whole-body models 往往忽略细粒度的——
获取用于3D人体网格估计的标注数据集具有挑战性,因为存在深度歧义,并且从单目图像对3D几何进行标注本身就很困难。
现代文本到图像(Text-to-Image,T2I)扩散模型已实现了显著的语义对齐,但它们常常存在显著的多样性缺失,趋向于……
在操作过程中对人手和物体的精确3D理解仍然是自体视觉的一个重大挑战。现有的hand‑object...
在视觉场景生成方面取得了巨大的进展,现在可以将单张图像转化为可探索的3D世界,但没有声音,沉浸感仍然不完整。我们介绍…
机器人映射系统通常通过机器人自身的传感器和摄像头来构建度量-语义场景表示。然而,这些“第一人称……”
视觉语言模型(VLMs)在各种任务中展示了令人印象深刻的能力,激发了利用这些模型来监督机器人学习的努力。
Flow‑GRPO 成功地将强化学习应用于流模型,但在所有步骤中使用了统一的信用分配。这忽略了时间结构……
面部识别系统正日益在执法和安保领域部署,在这些场景中,算法决策可能带来重大的社会后果。
端点 POST /v1/drawings/detection/doors 检测建筑平面图 PDF 中的门。接受先前上传的 document_id,将推理任务加入队列,并重新…
多模态大语言模型(MLLMs)通过提升输入保真度实现更强的视觉理解,但随之而来的视觉标记增长使得联合…
在过去的几年里,我们一直在构建一个以移动为先的 AI 皮肤分析系统(https://skinive.com/),该系统已被全球超过 1,000,000 名用户使用,除美国和加拿大之外。
从稀疏的固定摄像头集合中重建 3D 几何和外观是一项基础任务,具有广泛的应用,但它仍然在根本上受到限制……
最近在3D生成建模方面的进展主要依赖于 diffusion 或 flow‑matching 形式。我们则探索一种完全 autoregressive 的替代方案,并引入…
Depth from Defocus (DfD) 是从 focus stack 估计稠密度量深度图的任务。与之前过度拟合于特定数据集的工作不同,这篇论文……
Equivariance 是计算机视觉模型的基本属性,然而在真实世界数据中严格的等变性很少得到满足,这可能限制模型的性能……
我们引入 PerceptionComp,这是一个手动标注的基准,用于复杂、长时程、以感知为中心的视频推理。PerceptionComp 的设计目标是使得没有…
传统的视觉定位(VG)主要依赖文本描述来定位对象,这一范式本质上在语言歧义方面存在困难,...
在大规模训练的赋能下,视觉语言模型(VLMs)实现了强大的图像和视频理解,但它们在空间推理方面的能力仍然有限……
高保真3D重建车辆外观可以提升买家在在线汽车市场的信心,但在杂乱的经销商环境中生成这些模型……
移动设备持续与蜂窝基站交互,生成海量的信令记录,为理解……提供了广泛的覆盖。
大规模视频扩散模型实现了令人印象深刻的视觉质量,但往往未能保持几何一致性。先前的方法改进了一致性 eit...
现有的生成式视频压缩方法仅将生成模型用作传统编解码器之上的事后重建模块。我们提出 Generative Vide...