computer-vision — Page 33

1个月前 · ai

[Paper] 分布匹配变分自编码器

大多数视觉生成模型在应用扩散或自回归建模之前，会将图像压缩到潜在空间中。然而，现有的方法，例如 VAEs ……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] HalluShift++：通过内部表征转移桥接语言与视觉，实现 MLLMs 中的层次幻觉

多模态大语言模型（MLLMs）在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……

#research #paper #ai #nlp #computer-vision
1个月前 · ai

[论文] KAN-Dreamer：在世界模型中基准测试 Kolmogorov‑Arnold 网络作为函数逼近器

DreamerV3 是一种最先进的在线模型驱动强化学习（MBRL）算法，以其显著的样本效率而闻名。同时，Kolmogorov‑Arno…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 通过保持网络训练动态并使用 Concrete Ticket Search 赢得彩票

Lottery Ticket Hypothesis 断言，在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络（“winning tickets”）。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 弧形梯度下降：一种基于数学推导的梯度下降重新表述，具备相位感知、用户可控的步长动态

本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] EditThinker：为任意图像编辑器解锁迭代推理

Instruction-based image editing 已成为一个重要的研究领域，受益于 image generation foundation models，已经实现了高水平的美学效果……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型

视觉语言模型（VLMs）展现出卓越的常识和语义推理能力。然而，它们缺乏对物理动态的扎实理解。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响

常见的可解释人工智能（XAI）在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性：saliency maps……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Synset Signset Germany：用于德国交通标志识别的合成数据集

在本文中，我们提出了一种 synthesis pipeline 和 dataset，用于 traffic sign recognition 任务的训练/测试数据，结合了 d... 的优势。

#research #paper #ai #computer-vision

Newer posts

Older posts