[Paper] 使用 VideoScience-Bench 对视频生成的科学理解与推理进行基准测试
视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型,其中对 real-world scientific laws 的理解至关重要,以实现……
视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型,其中对 real-world scientific laws 的理解至关重要,以实现……
新视角合成(NVS)在计算机视觉和图形学中至关重要,广泛应用于增强现实(AR)、虚拟现实(VR)和自动驾驶。虽然3D Gaussian Splatting(3D...)
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……
封面图片:如何在 OCR 运行前修复被裁剪的文档 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...
生成模型最近在视觉运动策略学习方面展现出显著的前景,使得在多样化的具身 AI 任务中实现灵活且富有表现力的控制。
Self-driving laboratories 为减少生物科学中劳动密集、耗时且常常难以重复的工作流程提供了一条有前景的路径。
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
Video generators 正在日益被评估为潜在的 world models,这要求它们对 physical laws 进行编码和理解。我们调查它们的…
相机和物体运动是视频叙事的核心。然而,精确编辑这些捕获的运动仍然是一个重大挑战,尤其是在...
统一多模态模型(UMMs)旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA,一种原生的 UMM,...
MeanFlow(MF)最近被确立为一种一步生成建模的框架。然而,它的“fastforward”特性在…
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。
近期的多模态大语言模型(MLLMs)在视频理解方面取得了进展,但大多数仍然是“思考视频”,即一旦视频被编码,推理……
最近,多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……
大型视觉语言模型(VLMs)通过广泛的预训练,有效弥合模态差距,获取与视觉表示相匹配的复杂特征……
Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而,扩展模型的检测能力…
Inverse heat problems 指的是在已观测或已知的热扩散行为下,对材料热物理属性进行估计。Inverse heat problems 已经…