[Paper] 当视觉压倒语言:评估与缓解 VLAs 中的反事实失效
Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合,但在实践中往往未能忠实地遵循语言。当 pr...
Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合,但在实践中往往未能忠实地遵循语言。当 pr...
人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。
Black-box 对抗攻击在大型视觉语言模型(LVLMs)上具有挑战性,因为缺少梯度且多模态边界复杂。虽然先前的研究…
从复杂场景中检索用户指定的对象仍然是一项具有挑战性的任务,尤其是当查询含糊不清或涉及多个相似对象时。Exi...
近期在多模态大型语言模型(MLLMs)方面的进展显示出将视觉语言推理扩展到专业工具化图像的巨大潜力……
隐式神经表示(INRs)最近在视频压缩方面展示了令人印象深刻的性能。然而,由于必须对每个 INR 进行过拟合以...
在野外使用类人机器人对任意物体进行视觉定位操作,需要精确的末端执行器(EE)控制以及对……的可推广理解。
Vision-language models (VLMs) 旨在通过联合利用视觉和文本模态进行推理。虽然分配额外的 inference-time computation 已被证明……
人类感知的核心方面是 situated awareness,即将自身与周围物理环境联系起来并对可能的行动进行推理的能力……
时间序列异常检测(TSAD)需要识别即时的 Point Anomalies 和长期的 Context Anomalies。然而,现有的 foundation models f...
高精度(HD)地图对自动驾驶至关重要,提供道路要素的结构化表示,以支持导航和规划。然而,...
Adversarial diffusion 和 diffusion-inversion 方法推动了 unpaired image-to-image translation,但各自面临关键限制。Adversarial approaches …