[论文] 在强化学习中组合已训练模型
Deep reinforcement learning (DRL) 在 Atari 和围棋等领域取得了显著成果,但它仍然受到高样本成本和弱转移能力的困扰……
Deep reinforcement learning (DRL) 在 Atari 和围棋等领域取得了显著成果,但它仍然受到高样本成本和弱转移能力的困扰……
Dynamic Vision Sensors(DVS)具有卓越的动态范围和低功耗,使其成为 Internet of Video Thing 边缘应用的理想选择。
神经网络越来越多地嵌入不可微分的组件(spiking neurons、quantized layers、discrete routing、blackbox simulators 等),在这些组件上 backprop…
脉冲神经网络(SNN)因其事件驱动计算和时序过滤能力而在边缘感知方面具有潜力。然而,标准的泄漏…
OpenClaw封面图片:它是什么,为什么大家都在谈论它?https://media2.dev.to/dynamic/image/width=1000,height=500,fit=cover,gravity=auto,form...
最近的攻击表明,对大型语言模型的行为性去学习会留下可被对抗探针恢复的内部痕迹。我们描述了这些…
问题 长期的 Slashdot 读者 Anne Thwacks 经常使用 YouTube 的字幕 “不是为了打扰房间里的其他人,或者因为我的听力不太好……”。
介绍 嗨,GitHub 社区,👋 作为目前深度投入构建 agentic AI architectures 并大量使用 convex optimization 的人,...
企业 AI 团队正遇到瓶颈——并不是因为他们的模型无法推理,而是因为其底层工作流从未为 agents 构建。任务失败……
流匹配(FM)训练一个随时间变化的向量场,将样本从简单先验传输到复杂数据分布。然而,对于高维…
我们介绍 HyCOP,一个通过组合简单模块(对流、扩散、学习的闭合、边界…)来学习参数化 PDE 解算算子的模块化框架。
大型语言模型(LLMs)常在 reasoning benchmarks 上取得强劲表现,但仅凭最终答案的准确率并不能显示它们是否忠实地执行……
虽然 autoregressive Large Vision-Language Models (LVLMs) 在多模态任务中展示了卓越的能力,但它们面临着“Visual Signal Dilution”现象……
在本文中,我们提出了生成式语言-图像预训练(GenLIP),这是一种面向视觉Transformer(ViTs)的极简生成式预训练框架,旨在……
从表格数据生成多样且可读的统计图表对 LLMs 来说仍然具有挑战性,因为许多错误只有在渲染后才会显现,并且并未被检测到。
凝视估计方法通常使用面部外观来预测人的凝视方向。然而,先前的研究显示了三个主要挑战……
人类通过执行有针对性的计划来解决问题,但大型语言模型(LLMs)在结构化工作流执行方面仍然不可靠。我们提出 RunAgent,一个 …
背景:面向患者的医学聊天机器人基于检索增强生成(retrieval-augmented generation,RAG),正日益被推广,以提供可获取、基于事实的健康信息……
随着深度学习的发展,医学图像处理已被广泛用于辅助临床研究。本文聚焦于去噪问题……
Key-Value (KV) 缓存已成为现代大型视觉语言模型(LVLMs)在推理时的事实标准组件。虽然它提升了大规模解码的效率……
!Ansh Guptahttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fu...
虽然表征学习和相似性学习已经提升了强化学习(RL)的样本效率,但它们很少用于塑造策略更新 di...
在 GIScience 中,可靠的空间分析需要保持坐标语义、拓扑、单位以及地理合理性。当前基于 LLM 的 GIS 系统生成……
3D world generation 对于沉浸式内容创作或自动驾驶仿真等应用至关重要。最近在3D world generation 方面的进展已经……
在生物力学系统中,可观察的性能常被用作底层系统组织的代理。然而,这一假设隐含地假设了一个对应……
用于多语言语音克隆的speaker encoder应当对同一说话人保持一致的处理,无论音频使用哪种script。Off-the-shelf…
在线平台、影响行动和政治话语中的语言常常引导一种混合的亲社会情感(例如,倡导、乐于助人、合作……)。
城市感知描述了人们如何主观评估城市环境,塑造了人们对城市的体验和理解。现有的计算方法……
我们提出了一个用于在预算约束组合多臂老虎机(budgeted combinatorial multi-armed bandits)中实现 meritocratic fairness 的新框架,采用 full-bandit feedback(BCMAB-FBF)。不同于 semi-bandit ...
本文研究在非参数域上求解二维 Helmholtz 方程,利用基于 DeepONet 的物理信息神经算子网络。
Reward models (RMs) 已成为语言模型 (LM) 后训练工作手册中不可或缺的组成部分,使得策略对齐和测试时扩展成为可能。Res...
Monte Carlo Tree Search(MCTS)在合作多智能体领域的扩展性很差,因为在展开时必须考虑指数级庞大的联合动作集合,……
Edge detection 指的是在 digital image 中识别强度急剧变化的点,这些点表明 object boundaries 或 structural features。Corners 是…
LLMs 在预测任务和复杂推理任务方面表现出色,但许多高价值部署依赖于不确定性下的决策,例如,选择调用哪个工具……
Agentic AI 架构通过外部工具增强 LLM,释放出强大的能力。然而,工具使用并不总是有益的;有些调用可能是冗余的……
层次高斯过滤(Hierarchical Gaussian Filtering,HGF)网络能够高效地更新关于代理环境隐藏状态的后验分布(信念)。...
大型语言模型(LLMs)正日益应用于金融场景。然而,它们可能产生有害输出,包括促成非法活动……
大型语言模型(LLM)代理需要长期用户记忆以实现一致的个性化,但受限的上下文窗口阻碍了对不断变化偏好的跟踪。
Distributed blackbox consensus optimization 是多智能体系统中的一个基础问题,其中智能体必须仅使用局部目标来改进全局目标……
序列学习归结为在 temporally indexed representation space 上进行 similarity-based retrieval,这是一种对任何序列模型的约束,而不是模型的属性……
Elon Musk 是想要这场审判的人。他花了数月时间声称 OpenAI “偷走了一个非营利组织”,并说他是其中一个…
Large Language Models (LLMs) 的尺度定律表明,模型质量随计算规模的提升而提升,但边缘部署对 …… 施加了严格的约束。
AI 代理在每个任务中执行数十到数百次链式 LLM 调用,但 GPU 调度器将每次调用视为独立的,丢弃了数 GB 的中间状态……
利用高效的连续太阳能采集,空间数据中心被设想为执行能源密集型大型任务的有前景平台。
代码生成旨在根据给定的编程需求自动生成源代码,具有显著提升软件开发的潜力……
Agent skills——结构化的指令、脚本和参考资料包,能够在不修改模型本身的情况下增强大型语言模型(LLM)——...
Spiking Neural Networks (SNNs) 为实现节能且基于生物学原理的计算提供了有前景的框架;然而,在深度递归…