EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 3周前 · ai

    [Paper] GriDiT:因式分解的网格式扩散用于高效长图像序列生成

    现代深度学习方法通常将图像序列视为顺序堆叠帧的大张量。然而,这种直接的表示是否…

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] 提升 Ray Search Optimization 的收敛率,以实现查询高效的硬标签攻击

    在硬标签黑箱对抗攻击中,仅能访问 top-1 预测标签,巨大的查询复杂度对实际应用构成了主要障碍。

    #research #paper #ai #machine-learning #computer-vision
  • 3周前 · ai

    [Paper] SemanticGen: 语义空间中的视频生成

    最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布,并使用 VAE 解码器将其映射到像素。虽然 th...

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] LongVideoAgent:多智能体推理与长视频

    最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...

    #research #paper #ai #machine-learning #computer-vision
  • 3周前 · ai

    [Paper] SpatialTree:空间能力在 MLLMs 中的分支

    认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] 视频化身中的主动智能 via Closed-loop World Modeling

    当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] FedPOD:用于联邦学习的可部署训练单元

    本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。

    #research #paper #ai #machine-learning #computer-vision
  • 3周前 · ai

    [Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

    点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] Cube Bench:MLLMs空间视觉推理基准

    我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 3周前 · ai

    [Paper] LEAD:最小化学习者-专家不对称的端到端驾驶

    Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……

    #research #paper #ai #machine-learning #computer-vision
  • 3周前 · ai

    [Paper] FlashVLM:文本引导的视觉令牌选择用于大型多模态模型

    大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...

    #research #paper #ai #computer-vision
  • 3周前 · ai

    [Paper] 在4D中学习推理:用于视觉语言模型的动态空间理解

    视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即对对象 g... 的演变进行推理。

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026