· ai
[Paper] MV-TAP:在多视角视频中跟踪任意点
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
大型语言模型(LLMs)在隐藏的参数空间中编码事实知识,这些空间难以检查或控制。虽然稀疏自编码器(SAEs)……
大规模并行仿真已将机器人强化学习(RL)训练时间从数天缩短到数分钟。然而,要实现快速且可靠的仿真到…
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
我们介绍了 LLM CHESS,一个旨在探究大型语言模型在推理和遵循指令能力上的泛化性的评估框架(...)。
离线强化学习(RL)在从预先收集的数据集训练策略时提供了一条有前景的途径,尤其是在获取额外交互数据困难的情况下……
研究目的:腕部加速度计被广泛用于推断睡眠-清醒状态。先前的研究显示,唤醒检测效果不佳,且缺乏跨设备的通用性。
在资源受限的边缘设备上进行联邦学习(FL)面临一个关键挑战:训练深度神经网络(DNN)所需的计算能量……
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
全球矿物加工能力必须快速扩张,以满足关键矿产的需求,这些矿产对构建清洁能源技术至关重要。
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...