[Paper] RoboVIP:多视角视频生成与 Visual Identity Prompting 增强机器人操作
多样性、数量和质量的操作数据对于训练有效的机器人策略至关重要。然而,由于硬件和物理设置的限制……
多样性、数量和质量的操作数据对于训练有效的机器人策略至关重要。然而,由于硬件和物理设置的限制……
大型语言模型受到“幻觉”——由语义噪声引起的逻辑不一致——的困扰。我们提出,当前的架构在一个“Metric…”中运行。
相机控制的生成式视频重新渲染方法,例如 ReCamMaster,已经取得了显著进展。然而,尽管它们在单视角…
人类可以轻松预测物体在交互过程中的运动或变化——想象一只杯子被提起、一把刀在切割,或一个盖子被关闭。W...
我们使用机器学习和人工智能:1)从新闻和社交媒体中衡量各国的和平水平;2)开发在线工具,以……
能够在现实世界中进行推理和规划的智能体需要具备预测其行为后果的能力。虽然 world models 具备这种…
我提出一个新颖的框架,将随机微分方程(SDE)与深度生成模型相结合,以改进机器学习中的不确定性量化。
一次性预测使得仅使用一个标记示例就能快速将 pretrained foundation models 适配到新任务,但缺乏原则性的 uncertainty quantification。
我们提出 textsc{MineNPC-Task},一个由用户编写的基准和评估工具,用于在开放世界 Minecraft 中测试具备记忆感知、混合主动性的 LLM 代理……
大型语言模型(LLMs)在工具调用和工具使用方面表现出卓越的能力,但仍会出现幻觉现象,即它们会选择错误的工具……
脑磁共振成像(MRI)在研究神经发育、衰老和疾病方面发挥核心作用。一个关键的应用是大脑年龄预测……
MoE3D 是一种 mixture-of-experts 模块,旨在锐化深度边界并减轻现有 feed-forward 3D … 中的飞点伪影(红色标出)。
普适人工智能日益依赖于在设备上进行学习的系统,这些系统在严格的资源约束下提供低延迟和能源高效的计算。Liq...
股票市场价格预测是一个重要的跨学科研究领域,位于金融、统计学和经济学的交叉点。预测...
大型视觉语言模型(VLMs)功能强大,但常常因偏向文本提示而非视觉证据而产生幻觉。我们在……中研究了这种失效模式。
在本研究中,我们旨在更好地将 Johns Hopkins Fall Risk Assessment Tool (JHFRAT) 的跌倒风险预测与额外的临床意义测量对齐……
实体链接(将文本中模糊的提及映射到知识库中的实体)是诸如知识图谱构建、问答等任务的基础步骤。
当研究人员将 large language models 用于文献审阅或假设生成等自主任务时,计算费用会迅速累积。A...
大型语言模型(LLMs)已经彻底改变了基于文本的代码自动化,但它们在 graph-oriented engineering workflows 中的潜力仍未得到充分探索……
大型语言模型(LLMs)的快速发展引发了对使用合成数据训练未来模型的日益兴趣。然而,这会产生自我‑c...
链式思考(CoT)推理已成为多模态大型语言模型在视频理解任务中的强大工具。然而,它的必要性和...
具身问答(EQA)在3D环境中通常需要收集分布在多个视角且部分被遮挡的上下文。Ho...
现有的长期个性化对话系统在调和无限的交互流与有限的上下文约束方面遇到困难,常常因 memory...
自然语言推理(NLI)一直是评估语言模型在自然语言理解方面的重要任务,但其逻辑属性……