· ai
[Paper] Visual Sync: 多摄像头同步 via 跨视角对象运动
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
Video generators 正在日益被评估为潜在的 world models,这要求它们对 physical laws 进行编码和理解。我们调查它们的…
相机和物体运动是视频叙事的核心。然而,精确编辑这些捕获的运动仍然是一个重大挑战,尤其是在...
统一多模态模型(UMMs)旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA,一种原生的 UMM,...
MeanFlow(MF)最近被确立为一种一步生成建模的框架。然而,它的“fastforward”特性在…
随着大语言模型规模的不断扩大,低精度数值格式(如 NVFP4)因其速度和内存优势而日益受到欢迎……
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
测试时伸缩(Test-time scaling,TTS)——在推理过程中动态分配计算资源——是提升大型语言模型(LLMs)推理能力的一个有前景的方向。
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
大型语言模型(LLMs)在隐藏的参数空间中编码事实知识,这些空间难以检查或控制。虽然稀疏自编码器(SAEs)……
大规模并行仿真已将机器人强化学习(RL)训练时间从数天缩短到数分钟。然而,要实现快速且可靠的仿真到…