[Paper] RealWonder: 实时物理动作条件视频生成
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……
前馈Transformer模型推动了3D视觉的快速进展,但诸如VGGT和π³等最先进的方法的计算成本随……
传统的 vision-language models 在对比细粒度分类推理方面表现不佳,尤其是在区分外观相似的物种时……
病理报告生成仍然是一个相对未被充分探索的下游任务,主要是由于其 gigapixel 规模和复杂的形态异质性。
大规模视觉语言基础模型(VLFMs),例如 CLIP,现已支撑广泛的计算机视觉研究和应用。VLFMs 通常是 ada...
构建计算机辅助设计(CAD)模型工作量大,但对工程和制造至关重要。近期在大型语言模型(LL...)取得了重要进展。
我们梦想着一个未来,所有领域的 point clouds 能够汇聚在一起,塑造一个惠及所有领域的单一模型。为实现这一目标,我们提出了 Utonia,...
具身对话代理(Embodied Conversational Agents,ECAs)旨在通过语音、手势和面部表情来模拟人类面对面的互动。当前的大型语言模型……
许多关键的操作任务——例如食品准备、外科手术和工艺制作——对自主机器人仍然难以解决。这些任务的特征是…
实现自主且多功能的 whole-body loco-manipulation 仍然是使 humanoids 实际有用的核心障碍。然而,现有的方法仍然不足……
进行交互并从经验中学习的能力是机器人学的核心挑战,提供了一种可扩展的替代方案,以取代劳动密集型的人类 de...