computer-vision — Page 31

排序:

3个月前 · ai · - · -

[Paper] Hunyuan-GameCraft-2: 指令跟随的交互式游戏世界模型

近期在 generative world models 方面的进展，使得在创建 open-ended game environments 上取得了显著进展，已从 static scene synthesis 向……发展。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] DisMo：解耦运动表示用于开放世界运动迁移

最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展，使得从简单的文本创建视觉上引人注目且动态的视频成为可能……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] MANTA: 基于物理的通用水下目标跟踪

水下目标跟踪具有挑战性，因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] VQRAE：Representation Quantization Autoencoders 用于多模态理解、生成与重建

在单一 tokenizer 中统一多模态的理解、生成和重建表示仍然是构建统一模型的关键挑战。此前...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 通过基于注意力的可解释性优化多模态语言模型

现代的大型语言模型变得多模态，能够分析文本和图像等各种数据格式。虽然微调在适应这些多模态……

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

大规模视觉语言模型（LVLMs）在需要视觉信息的任务中展现出先进的能力，包括目标检测。这些能力……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] Canvas-to-Image: 使用多模态控制的组合图像生成

虽然现代扩散模型在生成高质量且多样化的图像方面表现出色，但它们仍然在高保真组合和多模态控制方面存在困难，...

#image generation #diffusion models #multimodal control #computer vision #research
3个月前 · ai · - · -

[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

学习在新平台和新场景中仅通过少量示例来学习新的机器人任务仍然具有挑战性。虽然其他形态——人类…（后文保持不变）

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理

Vision-Language Models (VLMs) 仍然缺乏空间智能方面的鲁棒性，在空间理解和推理任务上表现不佳。我们...

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] 无像素的视觉：来自相机轨迹的感知

是否可以仅凭相机轨迹——它在空间中划出的路径——而不观看像素来感知视频的内容？本文首次系统地探讨了这一问题……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 革新胶质瘤分割与分级：使用 3D MRI 的引导混合深度学习模型

Gliomas 是一种脑肿瘤类型，具有高死亡率，这意味着早期且准确的诊断对于肿瘤的治疗干预至关重要……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 不确定性量化用于视觉对象姿态估计

量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] Multi-Crit：在多元标准遵循上的多模态评审基准

大型多模态模型（LMM）因其强大的指令遵循能力和一致性，正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准，用于测试 LMM 能否充当可靠的评审...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] CaFlow：提升长期动作质量评估的 Causal Counterfactual Flow

动作质量评估（AQA）从动作视频中预测细粒度的执行分数，已广泛应用于体育、康复和技能评估……

#action-quality-assessment #causal-inference #video-analysis #computer-vision #long-term-temporal-modeling
3个月前 · ai · - · -

[Paper] 视觉Transformer中非单调缩放机制

更深的视觉Transformer往往表现不如较浅的模型，这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析，...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Qwen3-VL 技术报告

我们推出 Qwen3-VL，这是截至目前 Qwen 系列中最强大的视觉语言模型，在广泛的多模态基准上实现了卓越的性能……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 基于GCN的动作识别的主动学习

尽管图卷积网络（GCNs）在基于骨架的动作识别中取得了显著成功，但它们的性能往往依赖于大量的实验室…

#active learning #graph convolutional networks #action recognition #skeleton-based vision #computer vision
3个月前 · ai · - · -

[Paper] ReSAM：细化、重新查询与强化：自提示点监督遥感图像分割

交互式分割模型，例如 Segment Anything Model（SAM），在自然图像上展示了显著的泛化能力，但表现不佳……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

MoGAN：通过少步运动对抗后训练提升视频扩散中的运动质量

视频扩散模型在帧级保真度方面表现出色，但仍在运动连贯性、动态性和真实感方面存在困难，常常会产生抖动、重影或 …

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 多模态鲁棒提示蒸馏用于 3D 点云模型

对抗性攻击对基于学习的 3D 点云模型构成了重大威胁，严重削弱了它们在安全敏感应用中的可靠性。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] UAVLight：针对无人机（UAV）场景的光照鲁棒 3D 重建基准

Illumination inconsistency 是多视角 3D 重建中的一个根本性挑战。阳光方向、云层覆盖以及阴影的变化会破坏一致性……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 视频生成模型是优秀的潜在奖励模型

Reward feedback learning（ReFL）已被证明在将图像生成与人类偏好对齐方面有效。然而，将其扩展到视频生成面临…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Bangla 手语翻译：数据集创建挑战、基准测试与前景

Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制，因为该语言本身资源极其匮乏。标准的句子级数据集创建……

#sign-language #dataset #translation #computer-vision #benchmark
3个月前 · ai · - · -

[Paper] 年龄特异性阿尔茨海默病预测：非均匀时间跨度下的特征约束

阿尔茨海默病是一种导致认知功能下降的衰弱性疾病。及时识别该疾病对于疾病的早期干预和治疗方案的开发至关重要。

#research #paper #ai #computer-vision

Newer posts

Older posts