[Paper] AirGS:实时 4D 高斯流媒体用于自由视点视频体验
Free‑viewpoint video(FVV)通过允许用户从任意视角观看场景,实现沉浸式观看体验。作为一种重要的重建技术……
3296 posts from this source
Free‑viewpoint video(FVV)通过允许用户从任意视角观看场景,实现沉浸式观看体验。作为一种重要的重建技术……
在将概率调度规则引入 well-structured transition systems 的基础上,我们定义了一类新的 stochastic well-structured transition systems……
混合 AI‑HPC 工作流将大规模仿真、训练、高通量推理以及紧耦合的、基于代理的控制整合在一次执行中……
随着LLMs在物理世界推理能力方面的进步,缺乏严格的基准来评估它们生成科学上…
虽然以太坊已经成功实现了动态可用性和安全性,但在交易执行与不可变的最终性之间仍然存在根本性的延迟。
最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布,并使用 VAE 解码器将其映射到像素。虽然 th...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。
最近的研究表明,直接微调大型语言模型(LLMs)用于密集检索可以获得强大的性能,但它们庞大的参数数量……
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
使用梯度下降训练的神经网络通常会随时间学习到日益复杂的解,这一现象被称为 simplicity bias。尽管被 wid…
点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...
大规模自回归模型在下一标记预测上进行预训练,并通过强化学习(RL)进行微调,已在许多方面取得了前所未有的成功……
我们提出 MoE-DiffuSeq,这是一种基于 mixture of experts 的框架,用于增强 diffusion 模型在长文档生成中的能力。现有的基于 diffusion 的文本生成…
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
随着系统工程(SE)目标从单体系统的设计与运行演变为复杂的系统群(SoS),任务工程学的学科……
立体定向放射外科 (SRS) 需要在关键结构周围进行精确的剂量塑形,但由于黑箱 AI 系统的不透明性,其临床采纳受到限制……
我们证明,ReLU 神经网络的输出可以解释为一个零和、回合制、停止游戏的价值,我们称之为 ReLU net game。 The ...
大型语言模型(LLMs)生成流畅且复杂的输出,但往往无法识别自己的错误和幻觉。现有方法通常……
手工标记的训练数据对许多机器学习任务至关重要。然而,训练数据质量控制在文献中受到的关注很少,d...
部署后的机器学习算法常常会影响它们所作用的环境,从而改变标准强化学习所依赖的底层动态……
Diffusion Large Language Models (dLLMs) 提供快速的并行 token 生成,但其单独使用受到固有的效率‑质量权衡的困扰。W...
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……
Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……
我们研究在 ℝ^d 的单位球面上学习一个低阶球面多项式(次数 ℓ₀ = Θ(1) ≥ 1)的问题,通过训练一个过参数化的模型来实现。
大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...
视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即对对象 g... 的演变进行推理。
教师的情绪状态在教育情境中至关重要,对教学效能、学生参与度和学习成就产生深远影响。然而……
随着大型语言模型(LLMs)向自主代理转变,Deep Research 已成为一个关键指标。然而,现有的学术基准如 BrowseComp 往往未能满足 …
现代分布式系统面临一个关键挑战:现有的共识协议要么针对节点异构性进行优化,要么针对工作负载独立性进行优化,但两者无法兼顾……
维护大规模、多语言的 codebases 关键在于准确定位问题,这需要将自然语言错误描述映射到相关的……
语言的连贯性要求大脑满足两种相互竞争的时间需求:在扩展语境中逐渐累积意义,以及快速重新配置……
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
随着社交媒体、评论和论坛中非结构化数据的快速增长,文本挖掘已成为信息系统(IS)中提取……的关键。
本文提出了 iblock,一个用于 Bitcoin 仿真的综合 C++ 库,专为 OMNeT++ 设计。iblock 提供了卓越的效率和可扩展性,具备 …
我们提出了一种可扩展、模块化且可靠的方法,用于自动构建 Java 字节码程序的形式化安全规范,以元…的形式。
随着Network-on-Chip (NoC)和Wireless Sensor Network架构的持续扩展,底层网络的拓扑结构成为影响性能的关键因素。
我们提出了一种视觉-语言仿真模型(VLSM),它统一了视觉和文本理解,以从布局草图中合成可执行的FlexScript……
Service-based architecture (SBA) 在工业界和学术界受到关注,作为现代化遗留系统的一种手段。它指的是一种能够 … 的设计风格。
比较成人和新生儿的白质(WM)连接,使用扩散MRI(dMRI),可以推动我们对典型脑发育以及 po...
联邦学习(FL)通过将数据保留在客户端设备上,支持隐私保护的去中心化机器学习(ML)模型训练。然而,非独立…
在当今数据驱动的时代,深度学习对于处理海量数据集至关重要,但单设备训练受到计算和内存限制的制约……
随着大语言模型在代码生成方面的快速发展,GitHub Copilot 和 Cursor 等 AI 驱动的编辑器正在彻底改变软件开发。
最近在大型语言模型(LLMs)方面的进展显著推动了软件工程(SE)任务的自动化,使得诸如...
2008年,婴儿配方奶粉中的三聚氰胺迫使跨越三大洲的实验室验证一种他们从未监测过的化合物。使用 LC/GC 的非靶向分析……
当代 Large Language Models 的记忆受限于一个物理悖论:它们在学习的同时会被填满。键值状态的线性累积 (O(N)) ……
无服务器计算范式为部署大型语言模型(LLM)推理服务提供了引人注目的优势,包括弹性伸缩和按使用付费……