· ai
[Paper] TimeLens:重新思考视频时序定位与多模态 LLMs
本论文并未提出新方法,而是为视频时间定位(VTG)建立了一个直接、渐进且必不可少的基线,……
本论文并未提出新方法,而是为视频时间定位(VTG)建立了一个直接、渐进且必不可少的基线,……
非参数量化因其在参数上的高效性以及对大码本的可扩展性而受到广泛关注。本文中,我们提出了一种 uni...
我们介绍了 CRISP,这是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。先前关于人‑场景联合重建的工作…
Universal transformers (UTs) 已被广泛用于诸如 ARC-AGI 和 Sudoku 等复杂推理任务,然而它们性能提升的具体来源仍然...
近年来,3D 生成建模的最新进展显著提升了生成的真实感,但该领域仍受到现有表示方式的限制,……
Video foundation models 生成视觉上逼真且时间上连贯的内容,但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …
最近在人形机器人领域的进展已经实现了灵活的运动技能,包括后空翻、跑步和爬行。然而,对于人形机器人来说仍然具有挑战性……
最近的音频语言模型能够跟随长对话。然而,情感感知或口语对话摘要的研究受到数据缺乏的限制……
随机优化是现代机器学习的基础。最近的研究已经将随机一阶方法(SFOM)的研究从轻量级…
医院缺乏自动化系统来利用日益增长的异构临床和运营数据,以有效预测关键事件。早期……
Multi-token generation 已成为加速基于 Transformer 的大模型推理的有前景范式。近期的工作主要探索 diffusion …
我们提出 VASA-3D,一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战:捕捉细微的表情细节 p...