[Paper] WorldReel:4D 视频生成,实现一致的几何与运动建模
近期的视频生成器实现了惊人的写实效果,但在三维空间上仍然根本不一致。我们提出了 WorldReel,这是一种原生的四维视频生成器……
近期的视频生成器实现了惊人的写实效果,但在三维空间上仍然根本不一致。我们提出了 WorldReel,这是一种原生的四维视频生成器……
我们提出了一种新颖的基于图的 EEG 表征学习方法,称为梯度对齐(GEEGA),它利用多域信息来学习 EEG 表征……
随着 Gemini 在 Chrome 中的加入以及即将推出的 agentic capabilities,Google 正在详细说明浏览器将如何防御威胁。更多……
为什么现代 language models 在进行 next-word prediction 训练后,似乎能够生成连贯的文档并捕捉长程结构?在这里我们展示……
用于代码的大型语言模型(LLM4Code)显著提升了开发者的生产力,但也因依赖开源仓库而引发了隐私担忧……
未来的 AI 系统可能在评估期间隐藏其能力(“sandbagging”),从而误导开发者和审计员。我们对 sandbag...进行压力测试。
量子比特读取是量子计算系统中的关键操作,它将量子比特的模拟响应映射为离散的经典状态。深度神经网络……
在3D表示中嵌入语言字段,通过将几何与描述性意义关联,实现对空间环境更丰富的语义理解。Th...
我们提出 Multi-view Pyramid Transformer (MVP),一种可扩展的多视角 transformer 架构,能够直接从十到数百...重建大型 3D 场景。
我们提出了 GRAPE(Group RepresentAtional Position Encoding),一个基于群作用的统一位置编码框架。GRAPE 将两类……
在真实世界的视频中,叙事通常通过多个镜头展开——这些镜头虽然不连续,却在语义上相连,共同传达一个连贯的叙事……
LLM-based agents 正在快速被接入专家决策支持系统,但在混乱且高风险的环境中,它们很少让团队更聪明:人机团队的……