[Paper] VTAM:Video‑Tactile‑Action 模型用于超越 VLAs 的复杂物理交互
Video-Action Models(VAMs)已成为具身智能的有前景框架,通过从原始视频流中学习隐式世界动态来生成 t...
4646 posts from this source
Video-Action Models(VAMs)已成为具身智能的有前景框架,通过从原始视频流中学习隐式世界动态来生成 t...
近期 diffusion-based 模型在 image inpainting 中实现了 photorealism,但需要大量 sampling steps,限制了实际使用。Few-step text-to-image 模型的……
我们研究在满足线性 Bellman 完备性的马尔可夫决策过程(MDPs)中使用线性函数逼近的强化学习(RL)——一个基础…
AI驱动的网络安全系统在跨环境部署时常因碎片化的、以事件为中心的遥测表示而失败。我们介绍了Canon……
TRAP 协议通过将可追责共识与一次性 BFTCR 最终化阶段相结合,解决了理性一致性问题。我们提出了 SNARE(Scalable Nash Agreeme...)。
Mutation testing 是一种通过向程序中引入人工故障来评估测试套件有效性的技术。虽然 Mutation testing 插件是……
将机器学习(ML)算法集成到物联网(IoT)应用中,已经带来了显著的优势,同时也引入了漏洞 t...
机器学习模型在部署后常常需要适应新的数据,因为现实世界的结构化或非结构化动态。持续学习(Continual Learning,CL)框架……
规模化强化学习(RL)已显示出在提升大型语言模型(LLMs)推理能力方面的强大潜力,尤其是在需要……的任务中。
现有的多模态大语言模型(MLLMs)在 3D 空间推理方面存在困难,因为它们未能构建 3D 环境的结构化抽象……
用于离散域(如图)的 Energy-based models 明确捕获相对似然,自然能够实现可组合的 probabilistic inference 任务……
构建面向数据库的自然语言接口(NLIDB)的任务,最近在数据库领域和自然语言处理领域都受到了广泛关注。
提高数据利用效率对于在生成轨迹成本高昂的长期任务中扩展强化学习(RL)至关重要。如何……
Temporal Relation Extraction (TRE) 需要识别两个事件或时间表达式在时间上的关系。现有的基于注意力的模型通常高亮……
LLMs 在全球部署,但其响应倾向于拥有丰富训练数据的文化。现有的文化本地化方法,如 prompti...
Benchmarks 和 leaderboards 是 NLP 最常用来传达进展的方式,但在 LLM 时代,它们越来越容易被误读。分数可能反映 benchmark……
集中式身份管理系统持续面临安全和隐私挑战,促使人们探索去中心化身份(Decentralized Identity,DI)和 S...
大型语言模型(LLMs)在学术研究和更广泛的社会应用中发挥着关键作用。LLMs 正日益被用于软件测试……
Microservice-based applications 的特征是由 long-tail execution patterns 和 heterogeneous resource constraints 引起的 stochastic latencies。
深度强化学习(DRL)已成为解决复杂决策问题的强大范式。然而,基于DRL的系统仍面临显著……
架构模式经常出现在各种软件制品中。模式及其实现的种类繁多,使得检测变得具有挑战性……
检索增强生成(Retrieval-Augmented Generation,RAG)系统通过加入补充检索到的文档,提升大语言模型(LLMs)的性能,...
我们介绍了双视角信息素路径网络(Dual-View Pheromone Pathway Network,DPPN),这是一种通过持久的信息素场在潜在槽上路由稀疏注意力的架构……
完全配置的消息传递接口(MPI)并行实现了计算流体力学(CFD)求解器的近乎最优的实际运行时间。本文工作…
当我们思考自己如何使用智能手机、电子商务、协作平台、LLM 等时,我们与计算机的大多数交互都是交互式的,并且常常促使……
大规模分布式学习的目标是最小化一个损失函数 L,该函数依赖于训练数据集,并相对于一个 d 维参数向量进行优化。分布式…
生物神经网络在其一生中持续适应并根据经验自行修改——这种能力在人工系统中基本缺失。
在20世纪80年代,高性能计算(HPC)成为开放(非国防)科学与工程研究社区的另一种研究工具。然而,...
Diffusion Transformers (DiTs) 为高保真视频世界模型提供动力,但由于顺序去噪和昂贵的时空计算,仍然计算成本高……
由于上下文窗口有限,长视频理解对多模态大语言模型(MLLMs)仍然具有挑战性,这需要识别稀疏的 q…
潜在扩散模型(LDMs)通过在学习到的潜在空间中操作,实现高保真合成。然而,训练最先进的 LDMs 需要复杂的 st...
我们提出 UniMotion,据我们所知,这是第一个能够同时理解和生成人体动作、自然语言和 RGB 图像的统一框架。
最近在潜在世界模型(例如 V-JEPA2)方面的进展显示出在从视频观测中预测未来世界状态的有希望的能力。然而,...
Vision-Language-Action (VLA) 模型将视觉观测和语言指令直接映射到机器人动作。虽然在简单任务上有效,标准 VL...
许多多模态任务,例如图像字幕生成和视觉问答,需要视觉语言模型(VLMs)将对象与其属性关联……
Weight-Decomposed Low-Rank Adaptation (DoRA) 通过将权重的大小与方向解耦来扩展 LoRA,但其前向传播需要计算 W + … 的逐行范数。
虽然最近在 generative latent spaces 方面的进展推动了 single-image generation 的显著进展,但用于 novel view synthesis 的最佳 latent space ...
基于扩散的 video super-resolution(VSR)最近实现了显著的保真度,但仍然受到高昂采样成本的限制。虽然 distribution mat…
我们提出 TiCo,这是一种简单的后训练方法,用于使口语对话模型(SDMs)能够遵循时间约束指令并生成具有……
数以亿计的人依赖大型语言模型(LLMs)进行教育、工作,甚至医疗。然而,这些模型已知会复制并放大……
高性能计算(HPC)系统日益增长的异构性以及向 exascale 架构的转变需要系统化且可重复的……
扩散语言模型(DLM)已成为语言建模中一种有前景的自回归(AR)模型的替代方案,能够实现灵活的生成顺序……
扩散语言模型(DLMs)相较于自回归(AR)模型提供了诸多吸引人的优势,例如全注意力并行解码和灵活生成……
Decision Boundary Maps(DBMs)是可视化机器学习分类边界的有效工具。然而,DBM 的质量在很大程度上取决于维度……
使用语义 ID 的生成式推荐系统,例如 TIGER(Rajput et al., 2023),已成为在序列推荐中被广泛采用的竞争范式。
近期通过强化学习 (RL) 的文本到图像 (T2I) 生成的最新进展受益于评估语义对齐和视觉质量的奖励模型。
对话在社会生活中无处不在,但对这一互动过程的实证研究一直受到工具不足以模块化且不……
自回归(AR)语言模型的慢速、顺序特性推动了并行解码方法的采用。然而,这些非 AR 模型往往牺…