research — Page 106

1个月前 · ai

[Paper] Omni-Attribute：开放词汇属性编码器用于视觉概念个性化

视觉概念个性化旨在将特定的图像属性（如身份、表情、光照和风格）转移到未见过的场景中。然而……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] SceneMaker：开放集 3D 场景生成，解耦去遮挡与姿态估计模型

我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 双向 Normalizing Flow：从数据到噪声再返回

归一化流（Normalizing Flows，NFs）已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Group Diffusion: 通过解锁跨样本协作提升图像生成

在本工作中，我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的，但我们则提出……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 高质量数据共享的层次化数据集选择

现代机器学习的成功依赖于获取高质量的训练数据。在许多实际场景中，例如从公共仓库获取数据……

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] E-RayZer：自监督 3D 重建作为空间视觉预训练

自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models，但在学习3D方面仍基本未被探索。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

Reinforcement learning (RL)，此前已被证明在大型语言模型和多模态模型中有效，已成功扩展用于提升二维图像生成……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] ClusIR: 面向聚类引导的全能图像恢复

All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而，现有方法常常 f...

#research #paper #ai #computer-vision
1个月前 · ai

[论文] ImplicitRDP：端到端视觉‑力扩散策略，结构化慢快学习

人类水平的接触丰富操作依赖于两种关键模态的不同角色：视觉提供空间丰富但时间上较慢的全局上下文，...

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] AlcheMinT: 细粒度时间控制用于多参考一致视频生成

近期，基于大型扩散模型的以主题为驱动的视频生成取得了重要进展，使得能够在用户提供的主题条件下进行个性化内容合成……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Mull-Tokens: 模态无关潜在思考

推理超越语言；现实世界需要对空间、时间、affordances，以及远超文字所能表达的诸多方面进行推理。现有的 multimo...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] OmniView：全视扩散模型用于 3D 和 4D 视图合成

先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集：新视角合成、文本到视频…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts