EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] 生成式重新聚焦:灵活的散焦控制来自单张图像

    Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 世界是你的画布:使用参考图像、轨迹和文本绘制可提示事件

    我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Next-Embedding 预测使视觉学习者更强

    受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] 关键差异:审计模型用于能力差距的发现与纠正

    传统的多模态大语言模型(MLLM)评估方法缺乏可解释性,且往往不足以充分揭示跨…的显著能力差距。

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] DVGT: 驱动视觉几何Transformer

    从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而,目前仍缺乏针对驾驶任务的稠密几何。

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] EasyV2V:高质量基于指令的视频编辑框架

    虽然 image editing 发展迅速,但 video editing 仍然较少被探索,面临 consistency、control 和 generalization 的挑战。我们研究了设计...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] AdaTooler-V:自适应工具使用用于图像和视频

    最近的研究表明,多模态大型语言模型(MLLMs)受益于与视觉工具交互的多模态交叉链式思考(CoT)。

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] StereoPilot:通过生成先验学习统一且高效的立体转换

    立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] Depth Any Panoramas: 全景深度估计的基础模型

    在本工作中,我们提出了一种全景度量深度基础模型,能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……

    #research #paper #ai #computer-vision
  • 1个月前 · ai

    [Paper] SFTok:弥合离散分词器的性能差距

    近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] 从推理到运动的流动:从第一人称人类交互视频中学习3D手部轨迹预测

    先前关于3D 手部轨迹预测的工作受到数据集的限制,这些数据集将运动与语义监督解耦,并且模型在推理方面的关联较弱。

    #research #paper #ai #machine-learning #computer-vision
  • 1个月前 · ai

    [Paper] Multimodal RewardBench 2:评估用于交错文本和图像的 Omni Reward Models

    奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。

    #research #paper #ai #nlp #computer-vision

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026