[论文] Dyna‑Q 强化学习的预测安全盾
获得强化学习的安全保证是实现其在真实世界任务中可应用性的重大挑战。安全盾牌扩展了标准的强化学习框架,以提供额外的安全保障。
4797 posts from this source
获得强化学习的安全保证是实现其在真实世界任务中可应用性的重大挑战。安全盾牌扩展了标准的强化学习框架,以提供额外的安全保障。
阿尔茨海默病是一种导致认知功能下降的衰弱性疾病。及时识别该疾病对于疾病的早期干预和治疗方案的开发至关重要。
网络分析中的一个基本理论问题是确定在什么条件下,社区恢复在随机块模型(Stochastic Block Model)中可以在多项式时间内实现。
近期在 foundation models 方面的进展在 natural language processing 和 computer vision 等领域显示出巨大前景,类似的努力现在正在…
验证性能的关键限制在于错误检测的能力。基于这一直觉,我们设计了几种悲观验证的变体……
抗核抗体(ANA)检测是诊断自身免疫性疾病(包括系统性红斑狼疮、干燥综合征和硬皮病)的关键方法。尽管它的…
Unlike text, speech conveys information about the speaker, such as gender, through acoustic cues like pitch. This gives rise to modality-specific bias concerns.... 不同于文本,语音通过音高等声学线索传递关于说话者的信息,例如性别。这导致了特定模态的偏见问题……
基于Transformer的模型已成为各种机器学习任务的最新技术工具,包括时间序列分类,但它们的复杂性使得 …
在边缘设备上部署 Transformer 模型受到延迟和能耗预算的限制。虽然 INT8 量化能够有效加速主要的矩阵乘…
本研究提出了 **Tool‑RoCo**,这是一种基于 **RoCo**(一个多机器人协作平台)的新基准,用于评估大型语言模型(LLM)在长期多智能体合作中的表现。
在过去的二十年里,针对单一语言(例如 C、C++、Java、Rust、Python 等)的验证工具的研发投入了大量的研究与开发工作。这些工具往往专注于特定语言的语义和特性,提供形式化验证、模型检查、符号执行等技术,以帮助发现程序中的错误、漏洞或不符合规范的行为。随着软件系统的规模和复杂性不断提升,跨语言的交互与集成也日益普遍,这促使研究者开始探索能够同时支持多种语言的通用验证框架和工具链,以实现更广泛的代码安全与可靠性保障。
深度伪造检测方法的有效性往往不太取决于其核心设计,而更取决于实现细节,例如数据预处理、增强……
我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD),一种利用 cross-attention 的新型基于特征的知识蒸馏框架。
将光电容积描记(PPG)和球体心动描记(BCG)等非侵入性信号转换为临床有意义的信号,如动脉血压……
我们提出了一种新颖的训练方法 Merge-and-Bound (M&B),用于类别增量学习 (CIL),该方法直接在参数空间中操作模型权重,以实现高效且稳健的增量学习...
Vision Transformers 在各种计算机视觉任务中表现出卓越的性能,但它们相对于 token 的二次计算复杂度……
最近,视频生成取得了快速进展,越来越多的关注集中在移动设备上的图像到视频(I2V)合成上。然而,子...
神经代理在汽车空气动力学中的广泛使用,得益于诸如 DrivAerML 和 DrivAerNet++ 等数据集,主要集中在钝体……
可读性评估旨在评估文本的阅读难度。近年来,深度学习技术已逐步应用于可读性……
空间认知是现实世界多模态智能的基础,使模型能够有效地与物理环境交互。虽然多模态 ...
我们研究两层神经网络,并使用一种基于粒子的算法——共识优化(CBO)进行训练。我们比较了 CBO 在……方面的表现。
集成学习通过组合多个基分类器来提升分类性能。虽然增加分类器的数量通常会提升准确率……
It looks like the text you’d like translated is incomplete. Could you please provide the full passage (including the “> **Source:** …” line at the top) so I can translate it accurately while preserving the required formatting?
事件相机产生的异步事件流在空间上稀疏,但在时间上密集。主流的 event representation learning algorithms 通常…
模型合并将多个 fine-tuned checkpoints 合并为单一模型,无需额外训练,提供了一种重新使用模型并提升效率的有吸引力的方法。
大规模专家混合(Mixture of Experts,MoE)模型的训练面临着由于动态 token 路由导致的严重负载不平衡而产生的关键内存瓶颈。Thi...
我们提出了一种新颖的无监督框架,用于从连续的工业视频流中解锁海量未标记的人类示范数据,以用于 Vision-Language-Action ...
3D 重组是一个基本的几何问题,近年来它越来越多地受到深度学习方法的挑战,而不是传统的优化方法。
遥感变化描述是一个新兴且受欢迎的研究任务,旨在用自然语言描述已发生变化的感兴趣内容……
文本属性图需要模型能够有效地将强大的文本理解与结构化推理相结合。现有方法要么依赖 …
我们引入了 DiverseVAR,一个在测试时提升文本条件视觉自回归模型(VAR)多样性的框架,无需重新训练……
深度神经网络(DNN)和 Kolmogorov‑Arnold 网络(KAN)因其灵活性和表达能力而成为函数逼近的热门方法。然而……
由于对人工智能(AI)推理的需求日益增长,尤其是在高等教育领域,利用现有基础设施的新颖解决方案正在出现……
在标准 Transformer(TF)架构中,刚性且统一的计算分配可能限制其效率和可扩展性,尤其是在大规模……
最近的分而治之推理方法,尤其是基于思路链(Chain-of-Thought,CoT)的方式,显著提升了 Text-to-SQL 的能力……
误信息经常在在线新闻文章下的用户评论中传播,这凸显了需要有效的方法来检测事实错误的信息。
Lindsey(2025)通过四项实验研究语言模型的内省意识,发现模型有时能够检测并识别注入的……
Web 自动化利用智能代理通过模仿人类与网页界面的交互来执行高级任务。尽管最近的 La...
无关信息(即干扰项)如何影响视觉语言模型(VLM)在测试时的尺度扩展?先前对语言模型的研究已经报告了……
‘以图像思考’已成为推进视觉推理的有效范式,通过注入视觉证据,超越仅文本的思考链……
单元测试是一种必不可少但又费时的技术,用于验证软件并降低回归风险。虽然经典的自动化方法能够有效地…
Aspect-Based Sentiment Analysis (ABSA) 已成为从用户生成内容中提取细粒度情感洞察的关键工具,尤其是…
在不同数据集之间自动化适配软件工程(SE)研究制品对于可扩展性和可重复性至关重要,但它仍然是一个庞大的挑战...
处理受污染的数据在异常检测中构成了一个关键挑战,因为传统模型假设在纯粹的正常数据上进行训练。传统方法 mi...
在训练 transformer 模型时,神经网络权重的稳定性至关重要。查询(query)和键(key)权重尤其成问题,因为它们倾向于增长……
时空视频定位(STVG)需要根据自然语言描述,在未剪辑的视频中同时在时间和空间上定位目标对象。
数值模拟为许多物理和现实世界的问题提供了关键洞见。然而,尽管这些模拟是在完整的3D域上求解的,大多数分析……
内镜(endo)视频表现出强烈的视角依赖效应,例如 specularities、wet reflections 和 occlusions。纯 photometric supervision 会导致对齐错误……