EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] DentalGPT: 激励牙科中的多模态复杂推理

    对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1个月前 · ai

    [Paper] HFS:整体查询感知帧选择用于高效视频推理

    在视频理解中,关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分,往往会失败于……

    #research #paper #ai #nlp #computer-vision
  • 1个月前 · ai

    [Paper] Parallax:运行时并行化用于异构边缘系统的算子回退

    对边缘设备上实时 DNN 应用的需求日益增长,需要更快地推理日益复杂的模型。虽然许多设备包括 sp...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] StereoSpace:在规范空间中通过端到端扩散实现深度无关的立体几何合成

    我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] WorldLens:真实世界中驾驶世界模型的全谱评估

    生成式世界模型正在重塑具身 AI,使代理能够合成看起来逼真的 4D 驾驶环境,但往往在物理上失败……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 通过立体和中层视觉赋能动态城市导航

    在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型(NFMs)的研究。NFMs 直接映射单目……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Omni-Attribute:开放词汇属性编码器用于视觉概念个性化

    视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] SceneMaker:开放集 3D 场景生成,解耦去遮挡与姿态估计模型

    我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] 双向 Normalizing Flow:从数据到噪声再返回

    归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] Group Diffusion: 通过解锁跨样本协作提升图像生成

    在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] E-RayZer:自监督 3D 重建 作为空间视觉预训练

    自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 我们准备好在文本到3D生成中使用RL了吗?一次渐进式调查

    Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……

    #research #paper #ai #machine-learning #nlp #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026