EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1周前 · ai

    [Paper] InfiniDepth:任意分辨率和细粒度深度估计的神经隐式场

    现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] 多功能多模态代理用于多媒体内容生成

    随着 AIGC(AI 生成内容)技术的进步,越来越多的生成模型正在革新视频编辑、音乐等领域。

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [论文] LTX-2:高效联合音频-视觉基础模型

    近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列,但它们仍然是无声的——缺失语义、情感和氛围线索……

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] UniCorn:通过自生成监督实现自我改进的统一多模态模型

    虽然统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但它们在利用 su… 能力方面仍然存在显著差距。

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [Paper] AnatomiX,一种解剖感知的基于真实的多模态大型语言模型用于胸部X光片解读

    多模态医学大型语言模型在胸部X光解读方面表现出令人印象深刻的进展,但仍然面临空间推理和……

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [Paper] 多模态数据增强的基础模型在无线网络中的预测与控制:综述

    基础模型(FMs)被视为一种变革性的突破,已开始重塑人工智能(AI)的未来,跨越学术...

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1周前 · ai

    [Paper] DiffBench 与 DiffAgent:端到端 LLM 驱动的 Diffusion 加速代码生成

    扩散模型在图像和视频生成方面取得了显著成功。然而,它们固有的多步推理过程会带来巨大的计算成本……

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] LSP-DETR: 高效且可扩展的全切片图像细胞核分割

    精确且可扩展的细胞核实例分割对于计算病理学至关重要,然而千兆像素全切片图像带来了巨大的计算挑战。

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] Unified Thinker:通用推理模块化核心用于图像生成

    尽管在高保真图像合成方面取得了令人印象深刻的进展,生成模型在逻辑密集型指令遵循方面仍然存在困难,暴露出一个持续的……

    #research #paper #ai #machine-learning #computer-vision
  • 2周前 · ai

    全局注意力机制:保留信息以增强通道-空间交互

    概述:全局注意力帮助计算机更好地看图像——不会丢失细节。通过在整幅图像中保留信息,模型可以保留……

    #global attention #computer vision #image recognition #channel-spatial interaction #deep learning #neural networks #mobile AI
  • 2周前 · ai

    【论文】ExposeAnyone:个性化 Audio-to-Expression 扩散模型是鲁棒的 Zero-Shot 人脸伪造检测器

    检测未知的 deepfake 操作仍然是 face forgery detection 中最具挑战性的问题之一。当前最先进的方法未能生成……

    #research #paper #ai #computer-vision
  • 2周前 · ai

    [Paper] VINO:统一视觉生成器与交错全模态上下文

    我们提出了 VINO,一个统一的视觉生成器,能够在单一框架内进行图像和视频的生成与编辑。它不依赖于特定任务的……

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026