EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] Stable Signer: 层次化手语生成模型

    手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……

    #research #paper #ai #nlp #computer-vision
  • 1个月前 · ai

    [Paper] RELIC:交互式视频世界模型与长时程记忆

    真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 快速且高效的 Normalizing Flows 及图像生成模型的应用

    本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] Jina-VLM:小型多语言视觉语言模型

    我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1个月前 · ai

    衡量关键:图像生成评估的客观指标

    使用最先进模型生成高质量视觉内容正变得越来越容易。开源模型可以在笔记本电脑上运行,云服务将 tex...

    #image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
  • 1个月前 · ai

    [Paper] PSA:金字塔稀疏注意力用于高效视频理解与生成

    注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] 关于草图表示学习的时序性

    草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] MagicQuillV2:精确且交互式的图像编辑与分层视觉提示

    我们提出 MagicQuill V2,这是一种新颖的系统,引入了分层组合范式用于生成式图像编辑,弥合了语义……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] CAMEO:多视角扩散模型的对应注意力对齐

    多视角扩散模型最近作为一种强大的新视角合成范式出现,然而支撑其视图一致性的底层机制仍未被完全阐明……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] OneThinker:全能图像和视频推理模型

    强化学习(RL)最近在多模态大型语言模型(MLLMs)中引发视觉推理方面取得了显著成功。然而,现有的...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] PPTArena:用于代理式 PowerPoint 编辑的基准

    我们推出 PPTArena,这是一项用于 PowerPoint 编辑的基准,衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] MultiShotMaster:可控的多镜头视频生成框架

    当前的视频生成技术在单镜头剪辑(single-shot clips)方面表现出色,但在生成需要灵活镜头安排、连贯性的叙事多镜头视频(multi-shot videos)方面仍然困难,……

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026