computer-vision — Page 39

1个月前 · ai

[Paper] AirSim360：在无人机视角下的全景仿真平台

360度全向理解领域因推动空间智能而受到日益关注。然而，缺乏大规模…

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] MV-TAP：在多视角视频中跟踪任意点

多视角摄像系统能够对复杂的真实世界场景进行丰富的观测，在多视角设置中理解动态对象已成为核心……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 从音频学习视觉可供性

我们引入了 Audio-Visual Affordance Grounding (AV-AG)，这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] RoaD：将 Rollouts 视为 Demonstrations 用于闭环监督微调自动驾驶策略

自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而，这类策略在协变量偏移时会受到影响。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Chain-of-Ground：通过迭代推理和参考反馈提升 GUI Grounding

GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] 重新审视直接编码：可学习的时间动态用于静态图像脉冲神经网络

处理缺乏固有时间动态的静态图像仍然是脉冲神经网络（SNN）的一项根本性挑战。在直接训练的SNN中，静态...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] Video-CoM：通过操作链进行交互式视频推理

近期的多模态大语言模型（MLLMs）在视频理解方面取得了进展，但大多数仍然是“思考视频”，即一旦视频被编码，推理……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

最近，多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 视觉生成调优

大型视觉语言模型（VLMs）通过广泛的预训练，有效弥合模态差距，获取与视觉表示相匹配的复杂特征……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 面向对象的数据合成用于类别级目标检测

Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而，扩展模型的检测能力…

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts