· ai
[Paper] Spatia:可更新空间记忆的视频生成
现有的视频生成模型由于视频信号的密集和高维特性,在保持长期的空间和时间一致性方面面临困难。为了……
现有的视频生成模型由于视频信号的密集和高维特性,在保持长期的空间和时间一致性方面面临困难。为了……
在最基本的层面上,像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息,范围……
在最近的多模态研究中,diffusion paradigm 已经崭露头角,成为 autoregressive paradigm (AR) 的一种有前景的替代方案,因为它独特的解码……
解释神经网络的内部激活可以提供更忠实的行为解释,但由于其复杂结构,这一过程十分困难……
我们提出了 Gaussian Pixel Codec Avatars(GPiCA),一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。
本文提出了一种双引擎 AI 架构方法,旨在解决探索艺术演化潜在轨迹的复杂问题。W...
Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入,输出一个深层特征表示,...
Active Speaker Detection(ASD)旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……
在相互作用的生物体数学模型中,外部干预可能随时间改变行为,传统模型假设固定参数……
Early-Exit(EE)是一种 Large Language Model(LLM)架构,通过仅使用模型的子集来生成更容易的 token,从而加速推理。
自回归视频扩散模型在世界模拟方面具有潜力,但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...
包含人类偏好的图像压缩性能评估普遍发现,诸如 MSE 之类的朴素失真函数不足以……