EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] Video4Spatial:迈向具备上下文引导的视频生成的视觉空间智能

    我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] ViSAudio:端到端视频驱动的双耳空间音频生成

    尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [论文] MAViD:用于音频-视觉对话理解与生成的多模态框架

    我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] SMP:可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

    Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] Unrolled Networks 是 MRI 重建中的条件概率流

    磁共振成像(MRI)提供了出色的软组织对比度且无需电离辐射,但其长时间的采集限制了临床实用性。最近……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [论文] 用于肖像视频编辑的 In-Context Sync-LoRA

    编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] U4D:不确定性感知的4D世界建模基于LiDAR序列

    从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] InEx:通过自省和跨模态多代理协作进行幻觉缓解

    幻觉仍然是大型语言模型(LLMs)的关键挑战,阻碍了可靠的多模态LLM(MLLM)发展。现有的解决方案……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 上下文图像攻击:视觉上下文如何暴露多模态安全漏洞

    虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力,但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...

    #research #paper #ai #nlp #computer-vision
  • 1个月前 · ai

    [Paper] BEVDilation:LiDAR中心的多模态融合用于3D目标检测

    在鸟瞰视图(BEV)表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而,因为...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 轻量级实时低光增强网络用于嵌入式汽车视觉系统

    在低光环境下,如夜间驾驶,图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Layout Anything:一种用于通用房间布局估计的 Transformer

    我们提出 Layout Anything,一个基于 transformer 的室内布局估计框架,它将 OneFormer 的通用分割架构适配到几何…

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026