EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] LinkedOut:从 Video LLM 中链接世界知识表示以实现下一代视频推荐

    视频大型语言模型(VLLMs)通过在互联网规模的数据上进行预训练,解锁了具备世界知识感知的视频理解,并已显示出前景……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] 共同训练,提升诊断:用于Collagen VI相关营养不良的联邦学习

    将机器学习(Machine Learning, ML)应用于罕见疾病的诊断,如胶原VI相关营养不良(COL6‑RD),在根本上受到 s 的限制。

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] Spatia:可更新空间记忆的视频生成

    现有的视频生成模型由于视频信号的密集和高维特性,在保持长期的空间和时间一致性方面面临困难。为了……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] 追求像素监督以进行视觉预训练

    在最基本的层面上,像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息,范围……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] DiffusionVL:将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

    在最近的多模态研究中,diffusion paradigm 已经崭露头角,成为 autoregressive paradigm (AR) 的一种有前景的替代方案,因为它独特的解码……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Gaussian Pixel Codec Avatars:一种用于高效渲染的混合表示

    我们提出了 Gaussian Pixel Codec Avatars(GPiCA),一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 多视角 Foundation Models

    Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入,输出一个深层特征表示,...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] GateFusion:层次门控跨模态融合用于主动说话人检测

    Active Speaker Detection(ASD)旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 通过自重采样实现自回归视频扩散的端到端训练

    自回归视频扩散模型在世界模拟方面具有潜力,但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] VLIC:视觉语言模型作为感知评判者用于人类对齐的图像压缩

    包含人类偏好的图像压缩性能评估普遍发现,诸如 MSE 之类的朴素失真函数不足以……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Skyra:通过基于伪影的推理进行AI生成视频检测

    AI驱动的视频生成技术的滥用已经引发了严重的社会担忧,凸显出对可靠的AI生成视频检测器的迫切需求……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [论文] mimic-video:Video-Action 模型用于超越 VLAs 的通用机器人控制

    当前用于机器人操作的 Vision-Language-Action Models (VLAs) 基于在大规模但相互独立的视觉-语言骨干网络上进行预训练。

    #research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026