ai — Page 83 | EUNO.NEWS

1个月前 · ai

[Paper] Spatia：可更新空间记忆的视频生成

现有的视频生成模型由于视频信号的密集和高维特性，在保持长期的空间和时间一致性方面面临困难。为了……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 追求像素监督以进行视觉预训练

在最基本的层面上，像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息，范围……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

在最近的多模态研究中，diffusion paradigm 已经崭露头角，成为 autoregressive paradigm (AR) 的一种有前景的替代方案，因为它独特的解码……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 预测概念解码器：训练可扩展的端到端可解释性助手

解释神经网络的内部激活可以提供更忠实的行为解释，但由于其复杂结构，这一过程十分困难……

#research #paper #ai #machine-learning #nlp
1个月前 · ai

[Paper] Gaussian Pixel Codec Avatars：一种用于高效渲染的混合表示

我们提出了 Gaussian Pixel Codec Avatars（GPiCA），一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。

#research #paper #ai #computer-vision
1个月前 · ai

[论文] Artism：AI 驱动的双引擎系统用于艺术生成与批评

本文提出了一种双引擎 AI 架构方法，旨在解决探索艺术演化潜在轨迹的复杂问题。W...

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] 多视角 Foundation Models

Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入，输出一个深层特征表示，...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] GateFusion：层次门控跨模态融合用于主动说话人检测

Active Speaker Detection（ASD）旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 从稀疏生物数据中学习膀胱癌联合疗法的模型参数动态

在相互作用的生物体数学模型中，外部干预可能随时间改变行为，传统模型假设固定参数……

#research #paper #ai #machine-learning
1个月前 · ai

[论文] 动态 Rebatching 实现高效 Early-Exit 推理（DREX）

Early-Exit（EE）是一种 Large Language Model（LLM）架构，通过仅使用模型的子集来生成更容易的 token，从而加速推理。

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] 通过自重采样实现自回归视频扩散的端到端训练

自回归视频扩散模型在世界模拟方面具有潜力，但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] VLIC：视觉语言模型作为感知评判者用于人类对齐的图像压缩

包含人类偏好的图像压缩性能评估普遍发现，诸如 MSE 之类的朴素失真函数不足以……

#research #paper #ai #computer-vision

Newer posts

Older posts