[Paper] 更大是否总是更好?资源受限小目标检测的效率分析
Scaling laws 假设在更多数据上训练的更大模型始终优于较小的模型——这一假设驱动了计算机视觉中的模型选择,但……
Scaling laws 假设在更多数据上训练的更大模型始终优于较小的模型——这一假设驱动了计算机视觉中的模型选择,但……
多模态检索是将跨异构模态的查询信息聚合,以检索所需目标的任务。最先进的多模态……
从未标定的图像进行密集的4D重建仍然是一个关键挑战,现有方法依赖于缓慢的test-time优化或碎片化的、task-specific……
将 video generation 从秒级扩展到分钟级面临一个关键瓶颈:虽然 short‑video 数据丰富且 high‑fidelity,但 coherent long‑form 数据却是……
人类通过关键转变来感知动作,这些转变在多个抽象层次上结构化动作,而机器则依赖视觉特征,往往……
基于扩散的真实世界图像超分辨率(Real-ISR)在感知质量上表现出色,但由于迭代采样导致的高计算成本而受到限制。
现代显微镜常规产生千兆像素图像,包含跨多个空间尺度的结构,从细胞形态的细微特征到更广阔的组织或……
Diffusion models 实现了 state-of-the-art 视频生成质量,但由于需要大量的 sequential denoising steps,inference 仍然非常昂贵……
尽管具备强大能力,Multimodal Large Language Models(MLLMs)仍可能产生看似合理却错误的输出,阻碍可靠部署。准确的……
我们介绍了 MediX‑R1,一个面向医学多模态大语言模型(MLLMs)的开放式强化学习(RL)框架,能够实现临床基础的……
我们提出了一种可扩展的 3D reconstruction 模型,解决了离线 feed‑forward 方法的一个关键限制:它们的计算和内存需求……
我们将 occlusion reasoning 视为 3D layout‑conditioned generation 的一个基础但被忽视的方面。它对于合成部分遮挡的……