[论文] ETCH‑X:通过可组合数据集提升对穿衣人体的 Expressive Body Fitting 的鲁棒性
人体拟合,将诸如 SMPL 等参数化人体模型与穿衣人类的原始 3D 点云对齐,是下游任务的关键第一步。
人体拟合,将诸如 SMPL 等参数化人体模型与穿衣人类的原始 3D 点云对齐,是下游任务的关键第一步。
自由形态骨骼紧贴表面,能够有效捕捉非刚性变形,但缺乏直观控制所需的运动学结构。
代理式多模态模型的出现使系统能够主动与外部环境交互。然而,当前的代理在…
Text-to-video diffusion models 已经实现了开放式视频合成,但在生成提示中指定的正确对象数量时常常遇到困难。
事件相机在头戴式设备的单目自我视角3D人体姿态估计中提供了多种优势,例如毫秒级时间分辨率,hig...
机器人操作可变形物体代表了具身学习中数据密集的范式,其中形状、接触和拓扑以相互共演的方式……
本文针对从长视频序列进行大规模3D场景重建的任务。近期的前馈重建模型已经展示出有希望的 r...
多模态混合专家(MoE)模型在视觉语言任务上取得了显著的性能。然而,我们发现了一种令人困惑的现象,称为 Seei…
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…
Group Relative Policy Optimization (GRPO) 已成为推动最近在多模态大型语言模型领域进展的事实上的强化学习 (RL) 目标。
Visual decoding from brain signals 是计算机视觉和神经科学交叉领域的关键挑战,需要能够桥接神经表征……
我们引入 RewardFlow,这是一种无反演框架,在推理时通过多奖励 Langevin 动力学引导预训练的 diffusion 和 flow‑matching 模型。
个人 AI 工具现在可以通过自然语言请求生成,但它们在创建后往往仍然是孤立的。我们提出了 PSI,一种共享状态的架构……
On-policy distillation (OPD) 在学生模型自身产生的分布下进行训练,同时利用更强教师的监督。我们识别出一个失败…
Google 最新的 Gemini 升级将允许聊天机器人在回答你的问题时生成交互式 3D 模型和仿真。借助这一新功能,...
当今的大型语言模型(LLMs)通过强化学习等方法进行训练,以对齐用户偏好。然而,模型正开始被 d...
将 steering vectors 应用于大型语言模型(LLMs)是一种高效且有效的模型对齐技术,但我们缺乏可解释的说明。
AI agents 可能能够自动处理你的 inbox,但它们能否自动化你生活中的其他常规方面?日常在线任务提供了一个现实且尚未解决的测试…
大型语言模型(LLMs)在参数中记忆事实知识时可能会遇到困难,这常常导致幻觉并在知识密集型任务上表现不佳。
大型语言模型(LLMs)能够执行极其复杂的任务,然而这些能力在预训练过程中如何出现的细粒度细节仍然了解不足。
我们在不同性约束下,开启对语言生成极限模型的研究,该模型由 Kleinberg 和 Mullinathan [KM24] 最近提出。
科学目前提供了两种质量保证的选项,但都不够充分。期刊把关声称能够验证完整性和贡献,实际上……
Prompt injection attacks 在广泛的实际应用中构成严重的安全风险。尽管受到越来越多的关注,社区仍面临……
先前的研究已经表明,基于神经网络的节点嵌入在相同数据集上使用相同参数进行训练时会产生不同的结果,ju...
可验证奖励强化学习(RLVR)显著提升了大语言模型(LLM)在数学等形式化领域的推理能力……
联邦学习(FL)实现了跨分布式航空机队的隐私保护预测性维护,但梯度通信开销限制了……
拓扑数据分析(TDA)提供了描述数据形状的工具,但将拓扑特征整合到深度学习流水线中仍然具有挑战性……
尽管在由可验证奖励强化学习(RLVR)驱动的大规模推理模型(LRMs)方面取得了显著进展,但这种范式在根本上是…
!https://www.androidauthority.com/wp-content/uploads/2024/02/gemma-header.jpg - Google 的 AI Edge Gallery 应用现已正式在 Google Play 商店上线。
符号回归(Symbolic regression,SR)旨在从数据中发现数学表达式,这一任务传统上通过组合式的遗传编程(Genetic Programming,GP)来实现……
基于站点的共享单车系统在自行车供给与用户需求之间存在空间失衡,通常通过夜间卡车调度来解决。Th...
对于极端边缘的应用,仅有几十个人工神经元的极小网络用于离散时间信号中的事件检测和分类……
一个关于坚韧、信仰和反叛的永恒故事在《Samson: A Tyndalston Story》加入 GeForce NOW 时成为中心舞台。 https://www.nvidia.com/en-us/geforce-now/ li...
在训练期间压缩 State‑Space 模型 训练大型人工智能模型成本高昂——不仅在金钱上,还在时间、能源以及计算资源上……
基准问题是帮助我们理解优化算法的重要工具。由于算法常常旨在在基准上表现良好,偏差……
文本到图像生成执行一个以 base diffusion model 为核心的 diffusion workflow,涉及多个模型。现有的 serving 系统将每个 workflow…
本文研究了内部 Gaussian 噪声对深度前馈神经网络性能的影响,重点关注噪声注入的作用……
我们考虑经典的 Multi-Armed Bandit 场景,以理解不同搜索启发式方法所做的探索/利用权衡。由于许多搜索 h...
Meta 刚刚发布了 Muse Spark,这是他们一年以来的首次重大模型发布。基准测试显示它在性能上可与 Claude Opus 4.6 和 GPT 5.4 竞争,但这并不是……
概述:YouTube Shorts 正在推出一项新的 AI 驱动功能,为创作者提供一种在镜头前逼真克隆自己的简便方式。该功能的推出已被暗示……
提示混乱 一年来,我把 LLMs 当作命令行使用:输入指令,祈求输出,微调措辞,添加 “IMPORTANT:”,像…一样移动句子。
Agents 是由 LLM 驱动的组件,能够以强大且任意的方式改变环境。提取在生产环境中执行 Agents 的保证……
Meta公开了新的 AI 模型 “Muse Spark(뮤즈 스파크)”。这是自去年进行数万亿韩元规模的 AI 组织重组和人才引进后首次推出的成果。我们来看看 Muse Spark 是什么、为何受到关注以及得到什么评价。Muse Spark 是怎样的模型?Muse Spark 是 Meta 的全新 A…
Spatiotemporal neural dynamics 和 oscillatory synchronization 被广泛认为在 biological information processing 中起重要作用,并被假设支持……
为 NP 难组合优化问题(如车辆路径问题(VRP))设计高性能的元启发式算法仍然是一个重大挑战。
!https://www.androidauthority.com/wp-content/uploads/2024/02/Google-Gemini-logo-on-smartphone-stock-photo-7.jpg TL;DR - Google 正在向 Gemini 添加 Notebooks,以……
概览:Meta 刚刚发布了 Muse Spark,这是自 Llama 4 以来的首个新模型,距上一次发布约一年。基准测试将其与……并列。
2026年3月31日