· ai
[Paper] AirSim360:在无人机视角下的全景仿真平台
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。
近期的多模态大语言模型(MLLMs)在视频理解方面取得了进展,但大多数仍然是“思考视频”,即一旦视频被编码,推理……
最近,多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……
大型视觉语言模型(VLMs)通过广泛的预训练,有效弥合模态差距,获取与视觉表示相匹配的复杂特征……
Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而,扩展模型的检测能力…
Inverse heat problems 指的是在已观测或已知的热扩散行为下,对材料热物理属性进行估计。Inverse heat problems 已经…