[论文] SecCodeBench-V2 技术报告
我们介绍 SecCodeBench-V2,这是一个公开发布的基准,用于评估大型语言模型(LLM)副驾驶在生成安全代码方面的能力。SecCodeB...
4659 posts from this source
我们介绍 SecCodeBench-V2,这是一个公开发布的基准,用于评估大型语言模型(LLM)副驾驶在生成安全代码方面的能力。SecCodeB...
大型语言模型(LLMs)正在改变编码范式,被称为 vibe coding,然而合成算法上复杂且稳健的代码仍然是一个挑战。
软件仓库通过捕获开发者在代码相关活动(如 pull requests)中的交互,提供了软件演化的详细记录……
Code smell 是软件重构中的一个重大挑战,它表明潜在的设计或实现缺陷,可能会降低软件的可维护性和……
我们提出 SCENE(Self-Centering Noncoherent Estimator),一种无需导频且相位不变的聚合原语,用于空中联邦蒸馏(OTA-FD)……
我们引入了 Sphere Encoder,这是一种高效的生成框架,能够在一次前向传播中生成图像,并且能够与多步扩散模型竞争……
虽然 learned representations 是 neural networks 成功的基础,但它们的基本属性仍然了解不足。一个显著的例子是…
Large language models (LLMs) 正日益在 privacy-critical 和 personalization-oriented 场景中部署,然而 context length 在塑造 prior 方面的作用……
许多化学和科学中的generative tasks涉及对group symmetries(例如permutation和rotation)不变的distributions。常见的策略是强制……
生物制药创新已发生转变:许多新药资产现在来源于美国以外的地区,主要通过地区性的非英语渠道披露。
Neurosim 是一个快速、实时、高性能的库,用于模拟诸如动态视觉传感器、RGB相机、深度传感器和惯性传感器等传感器……
Diffusion language models 是一种有前景的替代 autoregressive models 的方案,因为它们在更快生成方面具有潜力。在离散 diffusion approaches 中……
本文提出了一种基于对大语言模型(LLMs)进行参数高效微调的文本风格迁移(TST)新方法。针对稀缺…
新闻推荐在在线新闻平台中发挥着关键作用,帮助用户发现相关内容。跨域新闻推荐进一步需要……
我们展示了在多样化的偏微分方程语料库的数值解上进行预训练的 AI foundation models 可以被适配和微调……
几何深度学习(Geometric deep learning,GDL)处理超出欧几里得结构的数据域上的监督学习,例如具有图(graph)或流形(manifold)结构的数据。...
对观察到的效应的实际原因进行推理是理性研究的基础。这个重要问题自亚里士多德时代起就已经被研究。
视觉语言模型(VLMs)在RGB图像上表现出色,但它们无法推广到热成像。热感测在……中发挥关键作用。
自动生成交互式 3D 环境对于在仿真中扩大机器人数据收集规模至关重要。虽然之前的工作主要集中在……
Articulated objects 是交互式3D应用的核心,包括 embodied AI、robotics 和 VR/AR,在这些领域中,functional part decomposition 和 kinematic …
我们提出了一个面向领域的框架和基准,用于 contact centers 中的 tool-aware plan generation,在回答业务洞察查询时,我们的目标……
将 ground-level imagery 与 geo-registered satellite maps 对齐对于 mapping、navigation 和 situational awareness 至关重要,但在 la... 下仍具挑战性。
为了应对全球健康威胁——抗菌药物耐药性,抗菌肽(AMP)正因其强大且前景广阔的抗菌能力而被深入研究。
为了解决企业 Agentic AI 中的“reusability dilemma”和结构性幻觉问题,本文提出了 ReusStdFlow,一个以新颖的 `...` 为中心的框架。
任务专用模型构成了代理式医疗系统的骨干,使得代理能够在疾病诊断等任务中回答临床查询,……
我们引入 Web-Scale Multimodal Summarization,一个轻量级框架,通过结合从网络来源检索的文本和图像数据来生成摘要。G...
模型上下文协议(MCP)标准化了基于基础模型(FM)的代理通过调用工具与外部系统交互的方式。然而,要理解……
LLM agents 越来越多地对外部系统进行操作,但 tool effects 是即时的。在出现 failures、speculation 或 contention 时,losing branches 可能泄漏 unintended …
我们推出 “Testimole-conversational”,这是一个庞大的意大利语讨论板帖子集合。该语料库规模巨大,超过 300 亿词。
在过去几年里,状态跟踪任务,尤其是 permutation composition,已成为了解序列模型架构极限的试验平台……
人类视觉系统通过将当前观察与先前观察到的信息整合,适应目标和场景的变化,并进行推理……
虚拟机放置是云计算中的一个关键挑战,旨在高效利用数据中心的物理机资源。虚拟机放置...
在 pull-based 开发模型中,代码贡献以 pull request(PR)的形式提交,以便接受其他开发者的审查和批准,目标是……
自动代码修订(Automated Code Revision,ACR)工具旨在通过根据审稿人反馈自动生成代码修订来减少人工工作量。虽然 ACR 工具已经显示……
本文提出了一种自动化方法,基于变更度量的聚类,对软件开发过程中的源代码变更进行分类。该方法……
量子计算的进步日益威胁当前密码系统所保护的数据的安全性和隐私,尤其是那些依赖于 public-key…
大型语言模型(LLMs)取得了显著进展,参数高效微调(PEFT)已成为下游任务适配的关键技术……
Platonic Representation Hypothesis 认为,来自 neural networks 的表征正在收敛到一个共同的 reality 的 statistical model。我们展示了……
Transformer 架构已成为现代深度学习的基础,但其核心的自注意力机制存在二次计算复杂度的……
部署大型语言模型(LLMs)在实时系统中仍然具有挑战性,因为它们需要大量计算资源并且存在隐私问题。我们提出……
在众多计算领域中,包括多……,对 large‑scale、ill‑conditioned 和 indefinite algebraic equations 的高效求解普遍需求。
边缘-云协同为基础模型的隐私保护部署提供了有前景的范式,其中轻量级的本地设备模型能够适应领域特定的……
在缺失数据的情况下进行学习可能导致偏差的预测和较差的泛化能力等问题,而 data imputation methods 仅...
随着云计算向 Exascale 级别(10^5+ 节点)扩展,主流的“Newtonian”编排范式——以 Kubernetes 为代表——正趋于……
在复杂的、实验驱动的领域中实现科学发现的自动化,不仅仅是对程序的迭代突变;它需要结构化的 hypothesis management……
Quality-Diversity (QD) 算法旨在在行为利基中发现多样且高性能的解决方案。然而,QD 搜索往往因增量……
小岛屿发展中国家(SIDS)在气候驱动的灾害面前暴露程度不成比例地高,但它们常常依赖脆弱的陆地网络,而这些网络在……时会失效。
联邦低秩适配 (FedLoRA) 已经促进了对基础模型进行通信高效且隐私保护的微调,以用于下游任务。在……