[Paper] ThermEval:用于热成像的视觉语言模型评估的结构化基准
视觉语言模型(VLMs)在RGB图像上表现出色,但它们无法推广到热成像。热感测在……中发挥关键作用。
视觉语言模型(VLMs)在RGB图像上表现出色,但它们无法推广到热成像。热感测在……中发挥关键作用。
Articulated objects 是交互式3D应用的核心,包括 embodied AI、robotics 和 VR/AR,在这些领域中,functional part decomposition 和 kinematic …
将 ground-level imagery 与 geo-registered satellite maps 对齐对于 mapping、navigation 和 situational awareness 至关重要,但在 la... 下仍具挑战性。
任务专用模型构成了代理式医疗系统的骨干,使得代理能够在疾病诊断等任务中回答临床查询,……
我们引入 Web-Scale Multimodal Summarization,一个轻量级框架,通过结合从网络来源检索的文本和图像数据来生成摘要。G...
人类视觉系统通过将当前观察与先前观察到的信息整合,适应目标和场景的变化,并进行推理……
Platonic Representation Hypothesis 认为,来自 neural networks 的表征正在收敛到一个共同的 reality 的 statistical model。我们展示了……
仍在生产环境中运行的15年代码 Haar Cascades无处不在。如果你曾经使用过OpenCV的人脸检测器,你就使用了该方法,该方法发表于……
通过观看人类视频来学习操作技能的能力有望为机器人学习打开一个高度可扩展的新数据来源。在这里,…
Video Language Models (VideoLMs) 使 AI 系统能够理解视频中的 temporal dynamics。为了适应最大 context window 限制,当前的方法……
在视频生成中实现有效且可推广的控制仍然是一个重大挑战。虽然许多方法依赖于模糊或特定任务的信号,但我们认为……
验证一种临床可获取的方法,利用单目摄像头和人工智能对上肢可达工作空间 (UERW) 进行量化。