[Paper] LongStream:长序列流式自回归视觉几何
长序列流式3D重建仍然是一个重要的未解决挑战。现有的autoregressive模型在处理长序列时常常失败。它们 t...
长序列流式3D重建仍然是一个重要的未解决挑战。现有的autoregressive模型在处理长序列时常常失败。它们 t...
随着面部识别(FR)系统的进步,隐私保护面部识别(PPFR)系统因其准确的识别而受到广泛关注,...
检测图像和视频中的异常是多个现实问题的关键任务,包括工业检测、计算机辅助诊断等。
本文提出了一种新颖的方法——Spectral-Interpretable and -Enhanced Transformer (SIEFormer),该方法利用光谱分析重新诠释注意力……
基于事件流的视觉位置识别(VPR)是一项新兴的研究方向,提供了一个有力的解决方案,以应对传统可见光方法的不稳定性……
随着 self-driving technology 向广泛采用迈进,确定在不同 environmental conditions 下的安全 operational thresholds 变得至关重要……
视觉错觉传统上依赖于空间操作,例如多视图一致性。在本工作中,我们引入了 Progressive Semantic Illusions,这是一种新颖的……
统一模型能够在单一架构中同时处理多模态理解和生成,但它们通常在一次前向传播中完成,而不进行迭代……
使用 Diffusion Transformers 进行实时视频生成时,受到 3D self-attention 二次成本的瓶颈限制,尤其在实时模式下……
监督微调(SFT)在计算上高效,但相比强化学习(RL)通常会导致较差的泛化能力。这一差距主要是…
当前用于图像生成和编辑的统一多模态模型通常依赖于大规模参数(例如 >10B),导致训练成本高昂……
高质量的3D纹理生成仍然是一个根本性的挑战,因为当前主流的 multi-view diffusion pipelines 所固有的视角不一致性。...