· ai
[Paper] AirGS:实时 4D 高斯流媒体用于自由视点视频体验
Free‑viewpoint video(FVV)通过允许用户从任意视角观看场景,实现沉浸式观看体验。作为一种重要的重建技术……
Free‑viewpoint video(FVV)通过允许用户从任意视角观看场景,实现沉浸式观看体验。作为一种重要的重建技术……
随着LLMs在物理世界推理能力方面的进步,缺乏严格的基准来评估它们生成科学上…
最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布,并使用 VAE 解码器将其映射到像素。虽然 th...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。
最近的研究表明,直接微调大型语言模型(LLMs)用于密集检索可以获得强大的性能,但它们庞大的参数数量……
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
使用梯度下降训练的神经网络通常会随时间学习到日益复杂的解,这一现象被称为 simplicity bias。尽管被 wid…
点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...
大规模自回归模型在下一标记预测上进行预训练,并通过强化学习(RL)进行微调,已在许多方面取得了前所未有的成功……
我们提出 MoE-DiffuSeq,这是一种基于 mixture of experts 的框架,用于增强 diffusion 模型在长文档生成中的能力。现有的基于 diffusion 的文本生成…