[论文] DarkEQA:在低光室内环境中对具身问答的视觉-语言模型进行基准测试
视觉语言模型(VLMs)正日益被采用为具身代理的核心推理模块。现有基准在 i... 下评估它们的能力。
视觉语言模型(VLMs)正日益被采用为具身代理的核心推理模块。现有基准在 i... 下评估它们的能力。
准确且可解释的作物病害诊断对农业决策至关重要,然而现有方法往往依赖于成本高昂的监督式 fine‑tuning……
深度神经网络(DNN)仍然易受对抗性攻击的影响,当在输入图像中添加特定扰动时,会导致误分类。这种...
实时视频分析(LVA)在大规模摄像头群中持续运行,但使用现代视觉模型的推理成本仍然很高。为了解决这个问题,动态 m...
封面图片:使用 AI 去除 CapCut 水印 — 我们如何构建无闪烁视频修复系统 https://media2.dev.to/dynamic/image/width=1000,height=420,...
封面图片:AI-Powered Heat Maps for Industrial Worksites https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...
基于扩散的 video super-resolution(VSR)方法能够实现强大的感知质量,但由于依赖于……,在对延迟敏感的场景中仍不实用。
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...
人类通过视觉观察学习运动,先解释视觉内容再模仿动作。然而,state-of-the-art humanoid locomotion sy...
Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们往往缺乏细粒度的跨模态理解……
时空对齐对于自动驾驶(AD)中端到端(E2E)感知的时间建模至关重要,能够提供有价值的结构和纹理……
生成模型正日益被用于3D视觉,以合成新形状,但仍不清楚它们的生成是否依赖于记忆训练数据。
胰腺肿瘤的早期检测是一个主要的临床难题,主要原因在于肿瘤往往在对比度极低的边缘出现。
提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……
将多模态大语言模型(MLLMs)整合到化学领域有望彻底改变科学发现的方式,但它们理解 d...
大型语言模型(LLM)代理虽然在数字领域表现出色,但由于在形成……方面的挑战,它们在物理世界部署方面存在显著差距。
多模态大型语言模型(LLMs)通过借助广泛的临床知识来解释扫描图像,为医学影像引入了一种新兴范式……
文章链接: https://github.com/apple/ml-sharp 评论链接: https://news.ycombinator.com/item?id=46401539 得分: 71 评论: 23
大型视觉语言模型(VLMs)通常受益于中间视觉线索,这些线索可以通过外部工具注入,或在生成过程中作为潜在视觉标记产生。
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……