[Paper] SurfPhase:稀疏视频中的两相流 3D 界面动力学
两相流中的界面动力学支配动量、热和质量传递,但在实验上仍然难以测量。传统技术面临……
两相流中的界面动力学支配动量、热和质量传递,但在实验上仍然难以测量。传统技术面临……
统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估结晶智力,……
随着大型多模态模型的快速发展,可靠的judge和critic模型已成为开放式评估和preference alignment的关键。
Flow-matching 模型在图像和视频生成方面提供了最先进的保真度,但其固有的顺序去噪过程使其速度较慢。Existin...
Biometric footstep recognition,基于人们在行走时脚下独特的压力模式,是一个新兴领域,应用正日益增长……
我们提出了 PuriLight,一个轻量且高效的框架,用于自监督单目深度估计,以应对计算效率方面的双重挑战……
现实世界中为具身代理收集数据仍然成本高且不安全,这需要可扩展、逼真且可直接用于模拟器的 3D 环境。然而,现有的……
Multiple rotation averaging (MRA) 是 3D 视觉和机器人领域的一个基础优化问题,旨在恢复全局一致的绝对旋转 fr...
扩展 action‑controllable world models 受限于动作标签的稀缺。虽然 latent action learning 有望从 u… 提取 control interfaces。
从未标记的视频数据中学习可迁移的知识并将其应用于新环境,是智能体的一项基本能力。该工作预…
利用表示编码器进行生成建模提供了一条实现高效、高保真合成的路径。然而,标准的 diffusion transformers 未能…
在互联网规模的视频上进行视觉-语言-动作(VLA)策略的预训练很有吸引力,但当前的潜在动作目标往往学习错误的东西:它们……