[Paper] SpatialTree:空间能力在 MLLMs 中的分支
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。
最近的研究表明,直接微调大型语言模型(LLMs)用于密集检索可以获得强大的性能,但它们庞大的参数数量……
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
使用梯度下降训练的神经网络通常会随时间学习到日益复杂的解,这一现象被称为 simplicity bias。尽管被 wid…
点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...
大规模自回归模型在下一标记预测上进行预训练,并通过强化学习(RL)进行微调,已在许多方面取得了前所未有的成功……
我们提出 MoE-DiffuSeq,这是一种基于 mixture of experts 的框架,用于增强 diffusion 模型在长文档生成中的能力。现有的基于 diffusion 的文本生成…
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
随着系统工程(SE)目标从单体系统的设计与运行演变为复杂的系统群(SoS),任务工程学的学科……
立体定向放射外科 (SRS) 需要在关键结构周围进行精确的剂量塑形,但由于黑箱 AI 系统的不透明性,其临床采纳受到限制……
我们证明,ReLU 神经网络的输出可以解释为一个零和、回合制、停止游戏的价值,我们称之为 ReLU net game。 The ...