[Paper] 基于投影的对抗攻击:物理回环优化用于单目深度估计
深度神经网络(DNN)仍然易受对抗性攻击的影响,当在输入图像中添加特定扰动时,会导致误分类。这种...
深度神经网络(DNN)仍然易受对抗性攻击的影响,当在输入图像中添加特定扰动时,会导致误分类。这种...
海马体似乎在大脑中实现了两个核心但高度不同的功能:长期记忆检索以及规划和空间导航。Naivel...
随着大规模模型的发展,传统的 distributed bilevel optimization algorithms 无法直接在 low-resource clients 上应用。关键是……
量子软件工程(QSE)对于确保混合量子‑经典系统的可靠性和可维护性至关重要,然而关于……的实证证据仍然不足。
随着 Software Engineering 进入其新纪元(SE 3.0),AI coding agents 越来越多地自动化软件开发工作流。然而,仍不清楚具体……
自动化程序修复(APR)旨在自动为有缺陷的程序生成正确的补丁。最近利用大语言模型(LLMs)的方法已经…
LLM-based software engineering 正在影响现代软件开发。除了正确性之外,先前的研究还考察了软件的性能。
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
大型语言模型(LLMs)在代码生成方面取得了显著进展,这在很大程度上得益于高质量代码数据集的可用性,从而实现了有效的预训练。然而,现有的代码语料库通常是从公共代码仓库(例如 GitHub)收集的,可能包含大量低质量或噪声代码,这会削弱 LLM 的性能。本文提出了一种新颖的方法,能够自动过滤大规模代码语料库中的低质量代码,从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言,首先使用静态分析工具检测语法错误、潜在 bug 和代码异味;随后在沙箱环境中运行代码,并利用自动生成的测试用例评估运行时行为和正确性;最后,结合原始仓库的社区反馈,如 star 数、fork 数和 issue 解决率,进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线,结果表明,在 HumanEval 基准上,使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型,pass@1 分数提升最高可达 15%。此外,我们还进行消融实验,量化了过滤方法中每个组件的贡献。研究结果表明,系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。
大型语言模型(LLMs)可以根据自然语言提示生成复杂的源代码。然而,LLMs 可能会生成偏离用户期望的输出。
我们提出一种 genetic programming 方法,自动发现用于 discrete ordinates 求解的 neutron transport 问题的收敛加速方法。
随着大语言模型(LLMs)和基础模型的规模扩大,checkpoint/restore 已成为训练和推理的关键模式。借助 3D 并行(tensor、pipeline、data),...