computer-vision — Page 35

1个月前 · ai

[Paper] ARM-Thinker：通过代理式工具使用和视觉推理强化多模态生成式奖励模型

奖励模型对于使视觉语言系统与人类偏好保持一致至关重要，但当前的方法存在幻觉、视觉定位薄弱等问题，……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] ShadowDraw：从任意对象到阴影绘画构图艺术

我们介绍了 ShadowDraw，一个将普通 3D 对象转化为阴影绘画构图艺术的框架。给定一个 3D 对象，我们的系统预测场景参数……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] NeuralRemaster：相位保留扩散用于结构对齐生成

标准扩散通过高斯噪声对数据进行破坏，其傅里叶系数具有随机幅度和随机相位。虽然在无条件或……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] EvoIR：面向全能图像恢复的进化频率调制

All-in-One Image Restoration (AiOIR) 任务通常涉及多样的退化，需要稳健且多功能的策略。然而，大多数现有方法 typ...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] TV2TV：统一框架用于交错语言和视频生成

视频生成模型正在快速发展，但在需要大量语义分支或重复高…的复杂视频输出方面仍可能面临困难。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] SA-IQA：用多维奖励重新定义空间美学的图像质量评估

近年来，针对 AI 生成图像（AIGI）的图像质量评估（IQA）发展迅速；然而，现有方法主要针对肖像和 ar...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

透视墙壁：AI 对遮挡运动的新视角 by Arvind Sundararajan

是否曾经在手部交叉、被物体遮挡，甚至稍微超出视野时，仍然难以获得准确的动作捕捉？标准的计算机视觉系统……

#computer vision #motion capture #occlusion handling #deformable state space model #visual feature extraction #AI research
1个月前 · ai

[Paper] SimFlow：简化的潜在归一化流端到端训练

Normalizing Flows (NFs) 学习数据与高斯分布之间的可逆映射。先前的工作通常存在两个限制。首先，它们添加……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 独特的生活，共享的世界：从单生命视频中学习

我们引入了“single-life”学习范式，在该范式中，我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] PosterCopilot：面向专业平面设计的布局推理与可控编辑

Graphic design 是现代视觉传播的基石，作为推广文化和商业活动的重要媒介。最近的进展已经…

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 用于体积重建的 Radiance Meshes

我们引入 radiance meshes，这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] SpaceTools：工具增强的空间推理 via Double Interactive RL

Vision Language Models (VLMs) 展示了强大的定性视觉理解能力，但在实现具身所需的度量精确空间推理方面仍然困难……

#research #paper #ai #computer-vision

Newer posts

Older posts