[Paper] Cube Bench:MLLMs空间视觉推理基准
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
随着系统工程(SE)目标从单体系统的设计与运行演变为复杂的系统群(SoS),任务工程学的学科……
立体定向放射外科 (SRS) 需要在关键结构周围进行精确的剂量塑形,但由于黑箱 AI 系统的不透明性,其临床采纳受到限制……
我们证明,ReLU 神经网络的输出可以解释为一个零和、回合制、停止游戏的价值,我们称之为 ReLU net game。 The ...
大型语言模型(LLMs)生成流畅且复杂的输出,但往往无法识别自己的错误和幻觉。现有方法通常……
手工标记的训练数据对许多机器学习任务至关重要。然而,训练数据质量控制在文献中受到的关注很少,d...
部署后的机器学习算法常常会影响它们所作用的环境,从而改变标准强化学习所依赖的底层动态……
Diffusion Large Language Models (dLLMs) 提供快速的并行 token 生成,但其单独使用受到固有的效率‑质量权衡的困扰。W...
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……
Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……
我们研究在 ℝ^d 的单位球面上学习一个低阶球面多项式(次数 ℓ₀ = Θ(1) ≥ 1)的问题,通过训练一个过参数化的模型来实现。
大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...