【论文】ASTRO:自适应拼接基于动力学引导的轨迹展开
离线强化学习(Offline reinforcement learning, RL)使得智能体能够从预先收集的数据集学习最优策略。然而,包含次优和碎片化的…
离线强化学习(Offline reinforcement learning, RL)使得智能体能够从预先收集的数据集学习最优策略。然而,包含次优和碎片化的…
机器学习模型在诊断、天气预报、自然语言处理(NLP)和自动驾驶等领域表现出色,但它们对不确定性的处理有限……
我们介绍了 SuperIntelliAgent,这是一种代理学习框架,将可训练的小型 diffusion model(学习者)与冻结的大型语言模型(t...)相耦合。
近期在 generative world models 方面的进展,使得在创建 open-ended game environments 上取得了显著进展,已从 static scene synthesis 向……发展。
最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展,使得从简单的文本创建视觉上引人注目且动态的视频成为可能……
自动化漏洞修补对于软件安全至关重要,最近在大型语言模型(LLMs)方面的进展展现了有前景的能力,用于……
水下目标跟踪具有挑战性,因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……
我们提出 LFM2,一系列旨在实现高效 on‑device 部署和强大任务能力的 Liquid Foundation Models。使用 hardware‑in‑the‑loop 架构……
Split learning 被广泛认为是一种通过在分布式设备上训练模型来解决数据隐私问题的方法,从而避免引发数据共享的……
伊朗的中小企业(SMEs)日益利用Telegram进行销售,实时互动对转化至关重要。然而,dev...
Direct Preference Optimization(DPO)是一种在各个领域广泛使用的基于人类反馈的强化学习(RLHF)方法。最近的研究已经…
我们研究在随机到达顺序模型下的在线无权二分匹配问题,设有 $n$ 个离线顶点和 $n$ 个在线顶点,采用学习增强的……
我们提出了Hierarchical AI-Meteorologist,一个LLM-agent系统,利用层次化的forecast推理和天气信息生成可解释的天气报告。
在单一 tokenizer 中统一多模态的理解、生成和重建表示仍然是构建统一模型的关键挑战。此前...
新手用户和专家用户在任务导向对话中有不同的系统性偏好。然而,迎合这些偏好是否真的能提升用户……
现代的大型语言模型变得多模态,能够分析文本和图像等各种数据格式。虽然微调在适应这些多模态……
尽管在 multilingual speech processing 方面取得了近期进展,非洲语言在研究和已部署的系统中仍然代表性不足,尤其是当 i...
在当代零售业,可供选择的产品种类繁多(例如 clothing、groceries、cosmetics、frozen goods),这使得预测需求变得困难,防止 s...
程序合成是根据一组规范(例如一组输入‑输出示例)生成计算机程序的过程。它可以被建模为……
Knowledge-enhanced text generation 旨在通过利用内部或外部知识源来提升生成文本的质量。虽然语言模型已经…
赌博障碍是一种复杂的行为成瘾,难以理解和处理,伴随严重的身体、心理和社会后果……
图表到代码的生成是自动化数据可视化中的关键任务,它将复杂的图表结构转换为可执行程序。虽然最近的 Multi-m...
本工作探讨了构建“能够记忆的机器”的挑战,将长期记忆框定为高效超长上下文建模的问题。W...
大规模视觉语言模型(LVLMs)在需要视觉信息的任务中展现出先进的能力,包括目标检测。这些能力……