research — Page 137

1个月前 · ai

[Paper] CAMEO：多视角扩散模型的对应注意力对齐

多视角扩散模型最近作为一种强大的新视角合成范式出现，然而支撑其视图一致性的底层机制仍未被完全阐明……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] OneThinker：全能图像和视频推理模型

强化学习（RL）最近在多模态大型语言模型（MLLMs）中引发视觉推理方面取得了显著成功。然而，现有的...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] PPTArena：用于代理式 PowerPoint 编辑的基准

我们推出 PPTArena，这是一项用于 PowerPoint 编辑的基准，衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] MultiShotMaster：可控的多镜头视频生成框架

当前的视频生成技术在单镜头剪辑（single-shot clips）方面表现出色，但在生成需要灵活镜头安排、连贯性的叙事多镜头视频（multi-shot videos）方面仍然困难，……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] Video4Spatial：迈向具备上下文引导的视频生成的视觉空间智能

我们调查视频生成模型是否能够展现视觉空间智能，这是一种对人类认知至关重要的能力，仅使用视觉数据。为此……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] ViSAudio：端到端视频驱动的双耳空间音频生成

尽管视频到音频生成取得了进展，该领域主要关注单声道输出，缺乏空间沉浸感。现有的binaural方法仍然……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 学习无需加速度测量的物理一致拉格朗日控制模型

本文研究了涉及非保守力的拉格朗日系统的建模与控制，采用一种不需要加速度的混合方法...

#research #paper #ai #machine-learning
1个月前 · ai

[论文] MAViD：用于音频-视觉对话理解与生成的多模态框架

我们提出 MAViD，一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] SMP：可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

Data-driven motion priors 能够引导 agents 产生自然行为，在创建逼真的虚拟角色方面发挥关键作用。Adversaria...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 道德一致性流水线：大型语言模型的持续伦理评估

Large Language Models (LLMs) 的快速发展和适应性凸显了道德一致性的需求，即保持伦理连贯性的能力……

#research #paper #ai #machine-learning #nlp
1个月前 · ai

[Paper] LORE：用于搜索相关性的大型生成模型

成就。我们推出 LORE，一个基于大型生成模型的电商搜索相关性系统框架。已部署并迭代三年，...

#research #paper #ai #machine-learning #nlp
1个月前 · ai

[Paper] TokenPowerBench：基准测试 LLM 推理的功耗

大型语言模型（LLM）服务现在每天回答数十亿次查询，行业报告显示，推理（inference）而非训练（training）占比超过90%。

#research #paper #ai #machine-learning

Newer posts

Older posts