EUNO.NEWS EUNO.NEWS
  • All (2392) +223
  • AI (550) +19
  • DevOps (142) +2
  • Software (1005) +131
  • IT (690) +70
  • Education (5) +1
  • Notice
  • All (2392) +223
    • AI (550) +19
    • DevOps (142) +2
    • Software (1005) +131
    • IT (690) +70
    • Education (5) +1
  • Notice
  • All (2392) +223
  • AI (550) +19
  • DevOps (142) +2
  • Software (1005) +131
  • IT (690) +70
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1天前 · ai

    [Paper] PSA:金字塔稀疏注意力用于高效视频理解与生成

    注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……

    #research #paper #ai #machine-learning #computer-vision
  • 1天前 · ai

    [Paper] 关于草图表示学习的时序性

    草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……

    #research #paper #ai #machine-learning #computer-vision
  • 2天前 · ai

    [Paper] MagicQuillV2:精确且交互式的图像编辑与分层视觉提示

    我们提出 MagicQuill V2,这是一种新颖的系统,引入了分层组合范式用于生成式图像编辑,弥合了语义……

    #research #paper #ai #computer-vision
  • 2天前 · ai

    [Paper] CAMEO:多视角扩散模型的对应注意力对齐

    多视角扩散模型最近作为一种强大的新视角合成范式出现,然而支撑其视图一致性的底层机制仍未被完全阐明……

    #research #paper #ai #computer-vision
  • 2天前 · ai

    [Paper] OneThinker:全能图像和视频推理模型

    强化学习(RL)最近在多模态大型语言模型(MLLMs)中引发视觉推理方面取得了显著成功。然而,现有的...

    #research #paper #ai #computer-vision
  • 2天前 · ai

    [Paper] PPTArena:用于代理式 PowerPoint 编辑的基准

    我们推出 PPTArena,这是一项用于 PowerPoint 编辑的基准,衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…

    #research #paper #ai #machine-learning #computer-vision
  • 2天前 · ai

    [Paper] MultiShotMaster:可控的多镜头视频生成框架

    当前的视频生成技术在单镜头剪辑(single-shot clips)方面表现出色,但在生成需要灵活镜头安排、连贯性的叙事多镜头视频(multi-shot videos)方面仍然困难,……

    #research #paper #ai #computer-vision
  • 2天前 · ai

    [Paper] Video4Spatial:迈向具备上下文引导的视频生成的视觉空间智能

    我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……

    #research #paper #ai #machine-learning #computer-vision
  • 2天前 · ai

    [Paper] ViSAudio:端到端视频驱动的双耳空间音频生成

    尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……

    #research #paper #ai #machine-learning #computer-vision
  • 2天前 · ai

    [论文] MAViD:用于音频-视觉对话理解与生成的多模态框架

    我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……

    #research #paper #ai #computer-vision
  • 2天前 · ai

    [Paper] SMP:可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

    Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...

    #research #paper #ai #machine-learning #computer-vision
  • 2天前 · ai

    [Paper] Unrolled Networks 是 MRI 重建中的条件概率流

    磁共振成像(MRI)提供了出色的软组织对比度且无需电离辐射,但其长时间的采集限制了临床实用性。最近……

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025