· ai
[Paper] Hunyuan-GameCraft-2: 指令跟随的交互式游戏世界模型
近期在 generative world models 方面的进展,使得在创建 open-ended game environments 上取得了显著进展,已从 static scene synthesis 向……发展。
近期在 generative world models 方面的进展,使得在创建 open-ended game environments 上取得了显著进展,已从 static scene synthesis 向……发展。
最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展,使得从简单的文本创建视觉上引人注目且动态的视频成为可能……
水下目标跟踪具有挑战性,因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……
在单一 tokenizer 中统一多模态的理解、生成和重建表示仍然是构建统一模型的关键挑战。此前...
现代的大型语言模型变得多模态,能够分析文本和图像等各种数据格式。虽然微调在适应这些多模态……
大规模视觉语言模型(LVLMs)在需要视觉信息的任务中展现出先进的能力,包括目标检测。这些能力……
虽然现代扩散模型在生成高质量且多样化的图像方面表现出色,但它们仍然在高保真组合和多模态控制方面存在困难,...
学习在新平台和新场景中仅通过少量示例来学习新的机器人任务仍然具有挑战性。虽然其他形态——人类…(后文保持不变)
Vision-Language Models (VLMs) 仍然缺乏空间智能方面的鲁棒性,在空间理解和推理任务上表现不佳。我们...
是否可以仅凭相机轨迹——它在空间中划出的路径——而不观看像素来感知视频的内容?本文首次系统地探讨了这一问题……
Gliomas 是一种脑肿瘤类型,具有高死亡率,这意味着早期且准确的诊断对于肿瘤的治疗干预至关重要……
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……