research — Page 93

1个月前 · ai

[Paper] TimeLens：重新思考视频时序定位与多模态 LLMs

本论文并未提出新方法，而是为视频时间定位（VTG）建立了一个直接、渐进且必不可少的基线，……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai

[Paper] 球面 Leech 量化用于视觉标记化与生成

非参数量化因其在参数上的高效性以及对大码本的可扩展性而受到广泛关注。本文中，我们提出了一种 uni...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] CRISP：接触引导的 Real2Sim 从单目视频与平面场景基元

我们介绍了 CRISP，这是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。先前关于人‑场景联合重建的工作…

#research #paper #ai #computer-vision
1个月前 · ai

【论文】通用推理模型

Universal transformers (UTs) 已被广泛用于诸如 ARC-AGI 和 Sudoku 等复杂推理任务，然而它们性能提升的具体来源仍然...

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] 原生且紧凑的结构化潜在用于3D生成

近年来，3D 生成建模的最新进展显著提升了生成的真实感，但该领域仍受到现有表示方式的限制，……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] MMGR: 多模态生成推理

Video foundation models 生成视觉上逼真且时间上连贯的内容，但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …

#research #paper #ai #nlp #computer-vision
1个月前 · ai

[Paper] CHIP：通过事后扰动实现类人机器人控制的自适应柔顺性

最近在人形机器人领域的进展已经实现了灵活的运动技能，包括后空翻、跑步和爬行。然而，对于人形机器人来说仍然具有挑战性……

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] Spoken DialogSum：用于口语对话摘要的情感丰富的对话数据集

最近的音频语言模型能够跟随长对话。然而，情感感知或口语对话摘要的研究受到数据缺乏的限制……

#research #paper #ai #machine-learning #nlp
1个月前 · ai

偏差-方差权衡：截剪随机一阶方法——从有界方差到无限均值

随机优化是现代机器学习的基础。最近的研究已经将随机一阶方法（SFOM）的研究从轻量级…

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] 医院患者恶化的早期预警指数

医院缺乏自动化系统来利用日益增长的异构临床和运营数据，以有效预测关键事件。早期……

#research #paper #ai #machine-learning
1个月前 · ai

[论文] 使用Jacobi Forcing 的快速且准确的因果并行解码

Multi-token generation 已成为加速基于 Transformer 的大模型推理的有前景范式。近期的工作主要探索 diffusion …

#research #paper #ai #nlp
1个月前 · ai

[Paper] VASA-3D：单张图像的逼真音频驱动 Gaussian 头部化身

我们提出 VASA-3D，一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战：捕捉细微的表情细节 p...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts