EUNO.NEWS EUNO.NEWS
  • All (2537) +318
  • AI (569) +26
  • DevOps (150) +6
  • Software (1054) +170
  • IT (759) +115
  • Education (5) +1
  • Notice
  • All (2537) +318
    • AI (569) +26
    • DevOps (150) +6
    • Software (1054) +170
    • IT (759) +115
    • Education (5) +1
  • Notice
  • All (2537) +318
  • AI (569) +26
  • DevOps (150) +6
  • Software (1054) +170
  • IT (759) +115
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1周前 · ai

    [Paper] 频率感知的 Token 缩减用于高效 Vision Transformer

    Vision Transformers 在各种计算机视觉任务中表现出卓越的性能,但它们相对于 token 的二次计算复杂度……

    #vision transformers #token reduction #frequency-aware pruning #computer vision #model efficiency
  • 1周前 · ai

    [Paper] MobileI2V:在移动设备上实现快速且高分辨率的图像到视频转换

    最近,视频生成取得了快速进展,越来越多的关注集中在移动设备上的图像到视频(I2V)合成上。然而,子...

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] EvRainDrop: HyperGraph 引导的完成用于有效的帧和事件流聚合

    事件相机产生的异步事件流在空间上稀疏,但在时间上密集。主流的 event representation learning algorithms 通常…

    #event cameras #hypergraph neural network #multimodal fusion #computer vision #deep learning
  • 1周前 · ai

    [Paper] E-M3RF:一种等变多模态3D重新组装框架

    3D 重组是一个基本的几何问题,近年来它越来越多地受到深度学习方法的挑战,而不是传统的优化方法。

    #equivariant neural networks #multimodal 3D reconstruction #point cloud processing #computer vision
  • 1周前 · ai

    [论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成

    遥感变化描述是一个新兴且受欢迎的研究任务,旨在用自然语言描述已发生变化的感兴趣内容……

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [Paper] Monet: 在潜在视觉空间中进行超越图像和语言的推理

    ‘以图像思考’已成为推进视觉推理的有效范式,通过注入视觉证据,超越仅文本的思考链……

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [Paper] 使用边界框进行思考:通过强化微调提升时空视频定位

    时空视频定位(STVG)需要根据自然语言描述,在未剪辑的视频中同时在时间和空间上定位目标对象。

    #research #paper #ai #computer-vision
  • 1周前 · ai

    [Paper] Endo-G$^{2}$T:几何引导 & 时间感知的时间嵌入 4DGS 用于内镜场景

    内镜(endo)视频表现出强烈的视角依赖效应,例如 specularities、wet reflections 和 occlusions。纯 photometric supervision 会导致对齐错误……

    #4D Gaussian Splatting #endoscopic reconstruction #computer vision #depth estimation #real-time rendering
  • 1周前 · ai

    [Paper] PFF-Net:用于点云法线估计的补丁特征拟合

    估计点的法线需要构建局部补丁以提供中心‑周围的上下文,但确定合适的邻域大小是……

    #research #paper #ai #computer-vision
  • 1周前 · ai

    SurgMLLMBench:用于外科场景理解的多模态大语言模型基准数据集

    Recent advances in multimodal large language models (LLMs) have highlighted their potential for medical and surgical applications. However, existing surgical da... 近期在多模态大型语言模型(LLMs)方面的进展凸显了它们在医学和外科应用中的潜力。然而,现有的外科数据……

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [Paper] 混合 SIFT‑SNN 用于交通流量控制基础设施的高效异常检测

    本文提出了 SIFT‑SNN 框架,这是一种低延迟神经形态信号处理管道,用于实时检测运输中的结构异常。

    #research #paper #ai #machine-learning #computer-vision
  • 1周前 · ai

    [论文] 越多越好:用于高阶多模态对齐的对比融合

    https://arxiv.org/abs/2305.12345 学习跨多模态的联合表示仍然是多模态机器学习中的核心挑战。当前的主流方法主要依赖于...(此处省略其余内容的中文翻译)

    #research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025