EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] VASA-3D:单张图像的逼真音频驱动 Gaussian 头部化身

    我们提出 VASA-3D,一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战:捕捉细微的表情细节 p...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    【论文】ART: 关节式重建Transformer

    我们介绍 ART,Articulated Reconstruction Transformer —— 一个类别无关的前馈模型,能够仅凭 … 重建完整的 3D 铰接对象。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] EVOLVE-VLA: 基于环境反馈的测试时训练用于视觉-语言-动作模型

    实现真正的自适应具身智能需要代理不仅通过模仿静态示范来学习,而是通过在环境中持续改进来不断提升。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 通过 Semiotic Isotopy 引导的数据集构建提升视觉情感分析

    视觉情感分析(VSA)是一项具有挑战性的任务,因为情感显著的图像种类繁多,并且获取足够的……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 多中心基准:基于Multiple Instance Learning模型的HE染色全切片图像淋巴瘤亚型划分

    及时且准确的淋巴瘤诊断对于指导癌症治疗至关重要。标准诊断实践结合了苏木精-伊红(HE)染色的全…

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建

    本文介绍了 JMMMU‑Pro,一个基于图像的日语多学科多模态理解基准,以及 Vibe Benchmark Construction,一个可扩展的…

    #research #paper #ai #machine-learning #nlp #computer-vision
  • 1个月前 · software

    alpr.watch

    文章链接: https://alpr.watch/ 评论链接: https://news.ycombinator.com/item?id=46290916 积分: 224 评论数: 114

    #license-plate-recognition #computer-vision #open-source #ALPR #surveillance-tool
  • 1个月前 · ai

    Ai2的 Molmo 2 表明开源模型可以在视频理解方面与专有巨头竞争

    在刚刚发布其 Olmo 基础模型最新版本后,Allen Institute for AI(Ai2)于周二推出了其开源视频模型 Molmo 2,……

    #Molmo 2 #video understanding #open-source AI #Allen Institute for AI #foundation models #computer vision
  • 1个月前 · ai

    AlphaFlow:理解与改进 MeanFlow 模型

    AlphaFlow 为 MeanFlow 图像模型提供了更平滑的训练计划,减少了其两个目标之间的冲突,加速了学习。概述……

    #MeanFlow #AlphaFlow #image generation #training optimization #deep learning #computer vision
  • 1个月前 · ai

    [Paper] DiffusionBrowser:通过多分支解码器实现交互式 Diffusion 预览

    视频扩散模型已经彻底改变了生成视频合成,但它们不够精确、速度慢,并且在生成过程中可能不透明——让用户处于……

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] LitePT:更轻更强的 Point Transformer

    现代用于3D点云处理的神经架构同时包含卷积层和attention块,但如何最佳组合它们仍未明确……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

    视觉分词器(例如 VAEs)中的潜在空间质量对现代生成模型至关重要。然而,标准的基于重构的训练……

    #research #paper #ai #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026