[Paper] Utonia:面向所有点云的单一编码器
我们梦想着一个未来,所有领域的 point clouds 能够汇聚在一起,塑造一个惠及所有领域的单一模型。为实现这一目标,我们提出了 Utonia,...
我们梦想着一个未来,所有领域的 point clouds 能够汇聚在一起,塑造一个惠及所有领域的单一模型。为实现这一目标,我们提出了 Utonia,...
具身对话代理(Embodied Conversational Agents,ECAs)旨在通过语音、手势和面部表情来模拟人类面对面的互动。当前的大型语言模型……
许多关键的操作任务——例如食品准备、外科手术和工艺制作——对自主机器人仍然难以解决。这些任务的特征是…
实现自主且多功能的 whole-body loco-manipulation 仍然是使 humanoids 实际有用的核心障碍。然而,现有的方法仍然不足……
进行交互并从经验中学习的能力是机器人学的核心挑战,提供了一种可扩展的替代方案,以取代劳动密集型的人类 de...
Feedforward geometric foundation models 在短窗口重建方面表现强劲,但将其扩展到分钟级视频时受到 quadratic attention 的瓶颈限制。
统一的多模态模型最近展示了强大的生成能力,但生成何时以及是否提升了理解仍不清楚。Exi...
Omni-modal 大语言模型(omni LLMs)最近在视听理解任务上取得了强劲的表现,但它们仍然高度易受…
Human-product images(展示人类与产品融合的图像)在广告、电子商务和数字营销中发挥着至关重要的作用。关键是……
我们提出了 Sketch2Colab,它将 storyboard 风格的 2D 草图转换为连贯、具备对象感知的 3D 多人物动作,并对 agents、关节等实现细粒度控制。
湄公河三角洲的非物质文化遗产(ICH)图像分类因标注数据有限、视觉相似度高等因素而面临独特的挑战……
基于指令的视频编辑取得了快速进展,但现有方法常常在精确的视觉控制方面遇到困难,因为自然语言本质上是……