[Paper] 分布匹配变分自编码器
大多数视觉生成模型在应用扩散或自回归建模之前,会将图像压缩到潜在空间中。然而,现有的方法,例如 VAEs ……
大多数视觉生成模型在应用扩散或自回归建模之前,会将图像压缩到潜在空间中。然而,现有的方法,例如 VAEs ……
多模态大语言模型(MLLMs)在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……
DreamerV3 是一种最先进的在线模型驱动强化学习(MBRL)算法,以其显著的样本效率而闻名。同时,Kolmogorov‑Arno…
Lottery Ticket Hypothesis 断言,在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络(“winning tickets”)。
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。
Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……
常见的可解释人工智能(XAI)在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性:saliency maps……
在本文中,我们提出了一种 synthesis pipeline 和 dataset,用于 traffic sign recognition 任务的训练/测试数据,结合了 d... 的优势。