[Paper] SceneMaker:开放集 3D 场景生成,解耦去遮挡与姿态估计模型
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
3337 posts from this source
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……
在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……
现代机器学习的成功依赖于获取高质量的训练数据。在许多实际场景中,例如从公共仓库获取数据……
自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。
Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……
All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而,现有方法常常 f...
人类水平的接触丰富操作依赖于两种关键模态的不同角色:视觉提供空间丰富但时间上较慢的全局上下文,...
近期,基于大型扩散模型的以主题为驱动的视频生成取得了重要进展,使得能够在用户提供的主题条件下进行个性化内容合成……
推理超越语言;现实世界需要对空间、时间、affordances,以及远超文字所能表达的诸多方面进行推理。现有的 multimo...
先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集:新视角合成、文本到视频…
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,最近引入的 Dynamic Tanh (DyT) 已经……
我们在部分可观测马尔可夫决策过程(POMDP)中的决策代理与单输入过程函数之间建立了精确的对应关系,...
为神经网络构建对抗性攻击似乎是其在各种服务中部署的关键挑战。为了估计对抗…
我们提出了 Any4D,一种可扩展的多视角 Transformer,用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……
在受限的管状环境中进行自主无人机导航仍然是一个重大挑战,因为管道的约束几何形状以及墙壁的接近……
许多最先进的 LLM 被训练成在给出答案之前先思考。推理可以大幅提升语言模型的能力和安全性,但它也会……
我们开发了一个用于从噪声量子实验中学习的框架,重点关注容错设备通过噪声耦合访问未表征系统……
Temporal-difference (TD) 方法通过从自身的未来价值预测进行 bootstrapping,高效地学习 state 和 action values,但这种 self‑bootstrappi…
社交存在是共同观看内容时享受的核心,但现代媒体消费正日益趋向于孤立。我们调查是否多代理…
情感是政治的核心,分析情感在政治传播中的作用有着悠久的传统。随着研究越来越多地利用 audio-visual 材料……
本研究使用计算文本分析方法,分析 J. R. R. Tolkien 的《霍比特人》(1937)中对话的情感基调。对话通过正则表达式提取……
现代 LLM 预训练消耗大量计算资源和训练数据,这使得不同模型的 scaling behavior(或 scaling laws)成为关键的区分因素。
Transport-based methods 已成为从大规模、干净的数据集构建 generative models 的主流范式。然而,在许多科学和工程…
Symbolic regression 是一种强大的工具,可直接从数据中发现控制方程,但其对噪声的敏感性阻碍了其更广泛的应用。Thi...
本文提出了一种强化学习框架,使得在不依赖人类游戏数据的情况下实现可控且多样的玩家行为。现有的...
我们考虑在无穷范数下,对 (mathbb{R}^d) 中的(逐坐标)最大函数进行平滑化的设计。LogSumExp 函数 (f(x)=ln!left(sum_{i=1}^{d} exp(x_i)right)) ……
Go 在关键基础设施中的采用加剧了对系统化漏洞检测的需求,但现有的 symbolic execution 工具在处理 Go 二进制文件时仍面临困难。
LabelFusion 是一种用于文本分类的融合集成模型,它学习将传统的基于 transformer 的分类器(例如 RoBERTa)与一个或多个 Larg...
我们推出 The FACTS Leaderboard,一个在线排行榜套件以及相关的一组基准测试,全面评估语言模型的能力。
检索增强生成(Retrieval‑Augmented Generation,RAG)系统在多跳查询时常常失败,尤其是当初始检索遗漏了桥接事实时。先前的纠正方法,例如 …
大型语言模型(LLMs)正日益在印度的高风险临床应用中部署。在许多此类环境中,使用印度语言的说话者频繁……
准确测量时间的流逝对许多应用至关重要。然而,在诸如 Intel SGX 的可信执行环境(TEEs)中,时间源是…
基于大型语言模型(LLM)的代码助手已经成为生成式 AI 的强大应用,展示了在代码生成方面的令人印象深刻的能力……
单桥区块链解决方案实现跨链通信。然而,它们伴随着中心化和单点故障风险。这篇...
贝叶斯推断提供了对自然主体信息处理的原理性解释。然而,神经机制如何执行 t...
背景:隐私立法已经影响了软件系统的开发方式,促使从业者更新他们的实现。具体而言,欧盟 ...
Data center (DC) 基础设施是支撑计算能力需求不断增长的骨干。传统的设计方法融合了人...
Data center (DC) 基础设施作为支撑计算能力日益增长需求的骨干。传统的设计方法融合了人...
DeepSeek-V3.2-Exp 引入了一种稀疏注意力机制,显著降低了长上下文场景下的推理延迟。虽然整体吞吐量…
Large language models (LLMs) 正在日益充当动态对话界面,支持模拟人类对话的多轮交互……
基于深度学习 (DL) 的漏洞检测方法在 benchmark 数据集上表现出强大的性能,但它们在实际中的有效性仍未得到充分验证。
在我们的工作中,我们并未明确暗示认为人类学习很快是一种误解。学习过程需要时间。婴儿开始学习移动的……
有效的 code retrieval 是不可或缺的,它已成为一种重要范式,使用 natural language 和 code snippets 的混合模式来搜索代码。N...
聚类联邦学习(CFL)已成为一种强有力的方法,用于解决数据异构性并在大规模分布式物联网环境中确保隐私。
医疗保健已经变得异常先进,wearables 和 connected medical devices 正在彻底改变 remote patient monitoring、emergency response、……
使用宽条带的 Erasure coding 正日益被采用,以降低大规模存储系统的存储开销。然而,现有的 Locally Repairable Codes(局部可修复码)……
在学术环境中,使用大型语言模型(LLMs)作为代码评估的自动评审正变得越来越普遍。但它们的可靠性……