[Paper] 更少高斯,更多纹理:4K 前馈纹理化 Splatting
现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives,导致随着分辨率的提升,primitive 数量呈二次增长。...
4611 posts from this source
现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives,导致随着分辨率的提升,primitive 数量呈二次增长。...
Multi-shot video generation 对长篇叙事讲述至关重要,但当前的 bidirectional architectures 存在交互性受限和高延迟的问题。
Vision Foundation Models (VFMs) 已成为现代计算机视觉的基石,提供了跨广泛任务的鲁棒表示。虽然最近…
Reference-to-video (R2V) 生成是一种可控视频合成范式,它通过文本提示和参考图像共同约束生成过程。
Vision-language-action 模型已经重塑了自动驾驶,使语言能够融入决策过程。然而,大多数现有的流水线仅……
人类驾驶行为本质上是个人化的,它受长期习惯的塑造并受到短期意图的影响。个体在加速方式上存在差异。
对大位移光流的精确估计仍然是一个关键挑战。现有方法通常依赖于迭代的局部搜索或/以及领域特…
平面设计是一种创造性和创新性的过程,在电子商务和广告等应用中发挥着关键作用。然而,开发一个自动化…
评估个人的技能水平至关重要,因为它本质上会塑造他们的行为。然而,量化技能却具有挑战性,因为它是潜在的……
检索增强生成(RAG)系统中的知识库通常只组装一次,且从不进行修订,即使查询所需的事实是……
生成逼真的 human-object interaction (HOI) 动画仍然具有挑战性,因为它需要同时建模动态的人体动作和多样的物体……
Autoregressive video diffusion models 已经展示了显著的进展,但它们仍然受到难以处理的线性 KV‑cache 增长、时间重复性的瓶颈限制……
细粒度面部表情编辑长期受到内在语义重叠的限制。为了解决这个问题,我们构建了 Flex Facial Expression (FFE) 数据集……
自动语音识别(ASR)系统在精心策划的基准测试中已达到接近人类的准确率,但在真实环境下的语音助理中仍会在某些条件下失效。
Agent 性能日益依赖于 harness engineering,但 harness 设计通常埋藏在 controller code 和 runtime-specific conventions 中,使得 …
Contrastive vision-language (V&L) 模型仍然是各种应用的热门选择。然而,出现了若干限制,最显著的是…
稳健的感知和推理需要跨感官模态的一致性。然而,当前的multimodal models往往违反这一原则,产生矛盾的……
我们进行了一项实证研究,探讨在没有硬件特定训练的情况下,通用编码代理能够在多大程度上从高级抽象优化硬件设计。
Video world models 在模拟物理世界方面展现出巨大的潜力,然而现有的 memory mechanisms 主要将环境视为 static canvases……
Block-diffusion 语言模型通过将块级自回归解码与内部...相结合,提供了一条通往比自回归更快生成的有前景的路径。
迁移学习和知识蒸馏最近在深度学习社区中受到广泛关注。一种迁移方法,学生-教师 l...
代码生产现在已经成为商品;瓶颈在于知道该构建什么以及证明它有效。我们提出 Kitchen Loop,一个用于自主、self-的框架。
可信的人工智能日益依赖概率计算,以实现鲁棒性、可解释性、安全性和隐私。在实际...
Neural scaling laws 在某些领域可以将大型神经网络的性能预测为模型、数据和计算规模的函数,是……
随着大型语言模型(LLMs)的不断进步,仅通过人工监督来改进它们的成本日益高昂,且可扩展性受到限制……
早期检测 atypical cognitive‑motor 发展对于及时干预至关重要,然而传统评估过于依赖主观、静态的评估……
安全监控对Cyber-Physical Systems (CPSs)至关重要。然而,在真实世界的CPS运行中,unsafe events非常罕见,导致出现极端类别的不平衡……
SHAPR(Solo Human-Centred and AI-Assisted Practice)是一个用于研究软件开发的框架,它将以人为本的决策与 AI 辅助相结合。
对引用的准确解析是机器可读的学术基础设施所必需的。但是,尽管对这个问题持续关注,现有的评估 t...
通过对 arXiv 论文的分析,我们报告了若干词汇使用的变化,这些变化很可能是由大型语言模型(LLMs)驱动的,但此前尚未收到……
在局部尺度上的气流建模对于污染物扩散建模或风电场建模等应用至关重要。为了规避昂贵的计算……
基于大型语言模型(LLM)的角色代理正被快速采用,作为跨多个领域的人类参与者的可扩展代理。然而,目前尚无系统…
修复有缺陷的量子电路具有挑战性,需要自动化的解决方案。我们提出了 QRep,这是一种自动化修复方法,能够迭代地识别和……
On-policy distillation(OPD)在大语言模型(LLM)后训练中具有吸引力,因为它在学生生成的 rollouts 上评估 teacher feedback,而不是…
自动化事件管理对微服务可靠性至关重要。虽然最近的统一框架利用多模态数据进行联合优化,但它们未……
我们通过比较人类撰写的叙事与视觉语言模型(VLMs)在 Vis… 上生成的叙事,来研究视觉基础故事中的叙事连贯性。
Neuroevolution 自动化了神经网络设计这一复杂任务,但常常忽视了进化模型固有的对抗脆弱性,这成为了……的障碍。
在 Kubernetes 中迁移有状态微服务需要仔细的状态管理,因为容器重启时内存中的状态会丢失。对于 StatefulSet‑mana…
每个软件组织都面临 onboarding 挑战:帮助新人在复杂的 codebases 中导航,弥补文档不足,并且 compreh...
准确预测 GPU 工作负载对 AI 基础设施至关重要,能够实现高效的 scheduling、resource allocation 和 power management。现代工作负载…
我们研究在分布式计算的 mathsf{CONGEST} 模型中的最小权重环(MWC)问题。对于无向加权图,我们设计了一种随机…
我们在分布式计算的 mathsf{CONGEST} 模型中研究最小权重环(MWC)问题。对于无向加权图,我们设计了一种随机…
联邦学习(Federated Learning,FL)是一种在协作环境中训练机器学习(ML)模型的范式,同时通过将原始数据保留在本地来保护参与者的隐私。
大型语言模型(LLMs)的出现催生了编程范式的转变,产生了“vibe coding”,用户可以构建完整的项目……
随着 AI 助手逐渐融入物理 AI 系统的安全工程工作流程,一个关键问题出现:AI 辅助是否能够提升安全分析……
公共区块链在监管合规性与用户隐私之间固有地存在张力。现有的链上身份解决方案需要中心化的 KYC 证明……
背景:AI-assisted code generation tools 的快速采用,例如 large language models (LLMs),正在改变软件开发实践。虽然…
多模态大语言模型(MLLMs)通过在统一架构中整合文本、图像和音频理解,取得了显著进展。Ho...