[Paper] 可证明的 Sinusoidal Activation 对 Modular Addition 的益处
本文研究了激活函数在使用两层神经网络学习模加法中的作用。我们首先建立了一个明确的表达能力差距:si...
470 posts from this source
本文研究了激活函数在使用两层神经网络学习模加法中的作用。我们首先建立了一个明确的表达能力差距:si...
离线强化学习(Offline reinforcement learning, RL)使得智能体能够从预先收集的数据集学习最优策略。然而,包含次优和碎片化的…
机器学习模型在诊断、天气预报、自然语言处理(NLP)和自动驾驶等领域表现出色,但它们对不确定性的处理有限……
我们介绍了 SuperIntelliAgent,这是一种代理学习框架,将可训练的小型 diffusion model(学习者)与冻结的大型语言模型(t...)相耦合。
近期在 generative world models 方面的进展,使得在创建 open-ended game environments 上取得了显著进展,已从 static scene synthesis 向……发展。
最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展,使得从简单的文本创建视觉上引人注目且动态的视频成为可能……
自动化漏洞修补对于软件安全至关重要,最近在大型语言模型(LLMs)方面的进展展现了有前景的能力,用于……
水下目标跟踪具有挑战性,因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……
我们提出 LFM2,一系列旨在实现高效 on‑device 部署和强大任务能力的 Liquid Foundation Models。使用 hardware‑in‑the‑loop 架构……
Split learning 被广泛认为是一种通过在分布式设备上训练模型来解决数据隐私问题的方法,从而避免引发数据共享的……
伊朗的中小企业(SMEs)日益利用Telegram进行销售,实时互动对转化至关重要。然而,dev...
Direct Preference Optimization(DPO)是一种在各个领域广泛使用的基于人类反馈的强化学习(RLHF)方法。最近的研究已经…