[Paper] LongVideoAgent:多智能体推理与长视频
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
使用梯度下降训练的神经网络通常会随时间学习到日益复杂的解,这一现象被称为 simplicity bias。尽管被 wid…
大规模自回归模型在下一标记预测上进行预训练,并通过强化学习(RL)进行微调,已在许多方面取得了前所未有的成功……
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
随着系统工程(SE)目标从单体系统的设计与运行演变为复杂的系统群(SoS),任务工程学的学科……
立体定向放射外科 (SRS) 需要在关键结构周围进行精确的剂量塑形,但由于黑箱 AI 系统的不透明性,其临床采纳受到限制……
我们证明,ReLU 神经网络的输出可以解释为一个零和、回合制、停止游戏的价值,我们称之为 ReLU net game。 The ...
手工标记的训练数据对许多机器学习任务至关重要。然而,训练数据质量控制在文献中受到的关注很少,d...
部署后的机器学习算法常常会影响它们所作用的环境,从而改变标准强化学习所依赖的底层动态……
Diffusion Large Language Models (dLLMs) 提供快速的并行 token 生成,但其单独使用受到固有的效率‑质量权衡的困扰。W...
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……