[Paper] 使用短随机块对长法律文档进行分类
对法律文档进行分类是一项挑战,除了它们的专业词汇外,有时它们可能非常冗长。这意味着将完整文档输入到 T...
对法律文档进行分类是一项挑战,除了它们的专业词汇外,有时它们可能非常冗长。这意味着将完整文档输入到 T...
真实的视觉模拟无处不在,但它们的创建需要计算时间、渲染以及专业的动画知识。Open-vocabulary 视觉效果...
视觉语言模型(VLMs)正日益被采用为具身代理的核心推理模块。现有基准在 i... 下评估它们的能力。
我们引入了一种用于 possibilistic reasoning 与 fuzzy formal contexts 的 two‑sort weighted modal logic。该逻辑的语法包括两类加权模态……
序列结构是自然认知和行为多个领域的关键特征,例如语言、运动和决策。同样,它也是……
我们使用大型语言模型(LLMs)来揭示来自各种来源的英文文本中的长程结构。许多情况下的条件熵或码长……
准确且可解释的作物病害诊断对农业决策至关重要,然而现有方法往往依赖于成本高昂的监督式 fine‑tuning……
搜索相关性在网络电子商务中发挥核心作用。虽然大语言模型(LLMs)在相关性任务上已显示出显著成果,但现有的基准……
铁路票务系统是最重要的公共服务基础设施之一。在假期等高峰期,它常常面临挑战……
我们展示了对大型语言模型(LLMs)进行迭代部署,每个模型都在用户从前一个模型部署中精心策划的数据上进行微调,能够……
现代云原生系统日益依赖多集群部署,以支持可扩展性、弹性和地理分布。然而,现有的 re...
将量子计算扩展到单个设备之外,需要将多个量子处理单元(QPUs)联网成一个一致的量子‑HPC 系统。我们提出了Mod…
Web3 技术的去中心化架构为反洗钱(Anti-Money Laundering)和反恐怖主义融资(Counter-Financing of Terrorism)合规带来了根本性的挑战。Trad...
测量 function similarity 来检测 bugs 是有效的,但与 bugs 无关的语句可能会因噪声干扰而影响性能……
神经架构搜索(NAS),它自动化深度神经网络(DNN)的架构设计过程,已受到越来越多的关注。多模态...
深度神经网络(DNN)仍然易受对抗性攻击的影响,当在输入图像中添加特定扰动时,会导致误分类。这种...
海马体似乎在大脑中实现了两个核心但高度不同的功能:长期记忆检索以及规划和空间导航。Naivel...
随着大规模模型的发展,传统的 distributed bilevel optimization algorithms 无法直接在 low-resource clients 上应用。关键是……
量子软件工程(QSE)对于确保混合量子‑经典系统的可靠性和可维护性至关重要,然而关于……的实证证据仍然不足。
随着 Software Engineering 进入其新纪元(SE 3.0),AI coding agents 越来越多地自动化软件开发工作流。然而,仍不清楚具体……
自动化程序修复(APR)旨在自动为有缺陷的程序生成正确的补丁。最近利用大语言模型(LLMs)的方法已经…
LLM-based software engineering 正在影响现代软件开发。除了正确性之外,先前的研究还考察了软件的性能。
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
大型语言模型(LLMs)在代码生成方面取得了显著进展,这在很大程度上得益于高质量代码数据集的可用性,从而实现了有效的预训练。然而,现有的代码语料库通常是从公共代码仓库(例如 GitHub)收集的,可能包含大量低质量或噪声代码,这会削弱 LLM 的性能。本文提出了一种新颖的方法,能够自动过滤大规模代码语料库中的低质量代码,从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言,首先使用静态分析工具检测语法错误、潜在 bug 和代码异味;随后在沙箱环境中运行代码,并利用自动生成的测试用例评估运行时行为和正确性;最后,结合原始仓库的社区反馈,如 star 数、fork 数和 issue 解决率,进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线,结果表明,在 HumanEval 基准上,使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型,pass@1 分数提升最高可达 15%。此外,我们还进行消融实验,量化了过滤方法中每个组件的贡献。研究结果表明,系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。