computer-vision — Page 32

1个月前 · ai

[Paper] 基于 Skewness-Guided 剪枝的 Multimodal Swin Transformers 在联邦皮肤病变分类中的边缘设备应用

近年来，高性能计算机视觉模型在医学影像领域取得了显著成功，甚至有一些皮肤病变分类系统……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 基于姿态的手语定位 via an End-to-End Encoder Architecture

自动手语识别（ASLR）已成为弥合聋人与听人社区之间鸿沟的关键领域。然而，手势的……

#research #paper #ai #nlp #computer-vision
1个月前 · ai

[Paper] 条件形态发生：通过 Neural Cellular Automata 的自发生成结构数字

生物系统表现出显著的 morphogenetic plasticity，单一基因组可以编码由局部化学…触发的各种专门的细胞结构。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Voxify3D：像素艺术遇上体积渲染

体素艺术是一种在游戏和数字媒体中广泛使用的独特风格化，但从 3D meshes 自动生成仍然具有挑战性，因为存在冲突的…

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 关系视觉相似性

人类不仅仅看到属性相似——我们也看到关系相似。苹果像桃子，因为两者都是红色的水果，但地球也是……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] UnityVideo：统一多模态多任务学习以提升世界感知视频生成

近期的视频生成模型展示了令人印象深刻的合成能力，但仍受单模态条件的限制，限制了它们的整体工作……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 单层足够：适配预训练视觉编码器用于图像生成

视觉生成模型（例如 diffusion models）通常在压缩的潜在空间中运行，以平衡训练效率和样本质量。与此同时，...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[论文] OpenVE-3M：大规模高质量的指令引导视频编辑数据集

基于指令的图像编辑数据集的质量和多样性正在不断提升，然而用于基于指令的……的大规模高质量数据集仍然不足。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] WorldReel：4D 视频生成，实现一致的几何与运动建模

近期的视频生成器实现了惊人的写实效果，但在三维空间上仍然根本不一致。我们提出了 WorldReel，这是一种原生的四维视频生成器……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] Lang3D-XL: 语言嵌入的 3D 高斯用于大规模场景

在3D表示中嵌入语言字段，通过将几何与描述性意义关联，实现对空间环境更丰富的语义理解。Th...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] Multi-view Pyramid Transformer：看得更粗，以见更广

我们提出 Multi-view Pyramid Transformer (MVP)，一种可扩展的多视角 transformer 架构，能够直接从十到数百...重建大型 3D 场景。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] OneStory：连贯的多镜头视频生成与自适应记忆

在真实世界的视频中，叙事通常通过多个镜头展开——这些镜头虽然不连续，却在语义上相连，共同传达一个连贯的叙事……

#research #paper #ai #computer-vision

Newer posts

Older posts