Source

arXiv

4750 posts from this source

排序:

4个月前 · software · - · -

[Paper] 1001 LoC的故事：潜在运行时错误引导的规范合成用于验证大规模程序

对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型（LLMs）最近…

#research #paper #software
4个月前 · software · - · -

[Paper] 关于训练数据优化在基于LLM的代码生成中的有效性：实证研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，这在很大程度上得益于高质量代码数据集的可用性，从而实现了有效的预训练。然而，现有的代码语料库通常是从公共代码仓库（例如 GitHub）收集的，可能包含大量低质量或噪声代码，这会削弱 LLM 的性能。本文提出了一种新颖的方法，能够自动过滤大规模代码语料库中的低质量代码，从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言，首先使用静态分析工具检测语法错误、潜在 bug 和代码异味；随后在沙箱环境中运行代码，并利用自动生成的测试用例评估运行时行为和正确性；最后，结合原始仓库的社区反馈，如 star 数、fork 数和 issue 解决率，进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线，结果表明，在 HumanEval 基准上，使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型，pass@1 分数提升最高可达 15%。此外，我们还进行消融实验，量化了过滤方法中每个组件的贡献。研究结果表明，系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。

#research #paper #software
4个月前 · ai · - · -

[Paper] 代码语言模型中的局部校准不确定性

大型语言模型（LLMs）可以根据自然语言提示生成复杂的源代码。然而，LLMs 可能会生成偏离用户期望的输出。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 进化式发现用于板层几何中子输运的序列加速方法

我们提出一种 genetic programming 方法，自动发现用于 discrete ordinates 求解的 neutron transport 问题的收敛加速方法。

#research #paper #ai
4个月前 · devops · - · -

[Paper] 理解 LLM 检查点/恢复 I/O 策略与模式

随着大语言模型（LLMs）和基础模型的规模扩大，checkpoint/restore 已成为训练和推理的关键模式。借助 3D 并行（tensor、pipeline、data），...

#research #paper #devops
4个月前 · ai · - · -

[Paper] 将E‑prop推广到深度网络

循环网络通常使用时间反向传播（BPTT）进行训练。然而，BPTT 需要存储网络中所有状态的历史以及 t...

#research #paper #ai #machine-learning
4个月前 · devops · - · -

[Paper] 区块链支持的房地产文档数据匹配

房地产行业仍然高度依赖手工文件处理和验证，使得流程低效且易受欺诈。本文提出...

#research #paper #devops
4个月前 · ai · - · -

[Paper] PackKV：通过 LLM 感知的有损压缩降低 KV 缓存内存占用

Transformer-based large language models (LLMs) 已经在广泛的实际应用中展示了显著的潜力。然而，长上下文推理……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] RedunCut：基于测量的采样与准确性性能建模用于低成本实时视频分析

实时视频分析（LVA）在大规模摄像头群中持续运行，但使用现代视觉模型的推理成本仍然很高。为了解决这个问题，动态 m...

#research #paper #ai #computer-vision
4个月前 · devops · - · -

[Paper] 数据异质性感知的客户端选择用于无线网络中的联邦学习

联邦学习（FL）使移动边缘设备作为客户端，能够协作训练去中心化模型，同时确保本地数据隐私。H...

#research #paper #devops
4个月前 · ai · - · -

[Paper] TESO Tabu 增强仿真优化用于噪声黑箱问题

仿真优化（SO）经常面临噪声评估、高计算成本以及复杂的多模态搜索景观的挑战。本文介绍……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 在进化约束多目标优化中从两个方向解耦约束

现实世界的约束多目标优化问题 (CMOPs) 通常包含多个约束，理解并利用它们之间的耦合……

#research #paper #ai
4个月前 · ai · - · -

[Paper] 使用自适应阈值法识别眼动数据中的凝视和扫视

在许多实验任务中，ocular fixations 和 saccades 的特性高度随机，它们的统计数据常被用作各种 … 的代理。

#research #paper #ai
4个月前 · ai · - · -

[Paper] Stream-DiffVSR：低延迟可流式视频超分辨率 via Auto-Regressive Diffusion

基于扩散的 video super-resolution（VSR）方法能够实现强大的感知质量，但由于依赖于……，在对延迟敏感的场景中仍不实用。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 使用 Rubric Rewards 训练 AI 合科学家

AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] 扩散了解透明性：重新利用 Video Diffusion 进行透明物体深度和法线估计

透明物体仍然是感知系统的顽疾：折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] 在多轮对话中引发行为

在对话环境中识别大型语言模型（LLMs）的特定且往往复杂的行为对于其评估至关重要。近期工作提出…

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] 贝尔曼校准用于离线强化学习中的 V-Learning

我们引入 Iterated Bellman Calibration，这是一种简单、模型不可知、事后（post‑hoc）校准 off‑policy 价值预测的程序，适用于无限时域的 Markov …

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 用细粒度人类反馈对文本片段微调 LLMs

我们提出了一种方法和数据集，用于在偏好监督下通过反馈驱动的改进链对语言模型进行微调。给定模型的响应，……

#research #paper #ai #nlp
4个月前 · ai · - · -

[Paper] PROFASR-BENCH：针对高风险专业语音的上下文条件化 ASR 基准

在专业环境中的自动语音识别（ASR）面临着现有基准低估的挑战：密集的领域术语、正式语体的变体……

#research #paper #ai #nlp
4个月前 · ai · - · -

[Paper] 多语言隐藏提示注入攻击对基于LLM的学术评审

大型语言模型（LLMs）正日益被考虑用于高影响力的工作流程，包括学术同行评审。然而，LLMs 易受到文档……

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

【论文】Web World Models

语言代理日益需要持久的世界，在其中它们可以行动、记忆和学习。现有方法位于两个极端：传统的网络 fra...

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 端到端 Test-Time Training 用于长上下文

我们将长上下文语言建模定义为持续学习中的一个问题，而不是架构设计。在这种定义下，我们仅使用标准的 a...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 校准的多层分位数预测

我们提出了一种在线方法，用于同时保证多个分位水平的分位数预测的校准。α水平的分位数预测序列……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 随机控制微分方程

我们提出了一种训练高效的时间序列学习框架，将随机特征与受控微分方程（CDE）相结合。在这种方法……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] IDT：一种基于物理的 Transformer 用于前馈多视角固有分解

内在图像分解是视觉理解的基础，因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 少即是多：Probabilistic reduction 最好用 small-scale predictability measures 来解释

本文的主要研究问题集中在定义在研究关系 b 时所需的或适当的上下文量。

#research #paper #ai #nlp
4个月前 · ai · - · -

[Paper] RoboMirror: 先理解再模仿——从视频到类人机器人行走

人类通过视觉观察学习运动，先解释视觉内容再模仿动作。然而，state-of-the-art humanoid locomotion sy...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 嵌套浏览器使用学习用于代理式信息寻求

Information-seeking (IS) agents 已在广泛且深入的搜索任务中取得了强劲表现，但它们的工具使用仍然主要局限于 …

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] OmniAgent：音频引导的主动感知代理用于全模态音视频理解

Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展；然而，它们往往缺乏细粒度的跨模态理解……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 通过深度神经网络对得分函数及其导数的同步近似

我们提出了一种同时近似score function及其导数的理论，使得能够处理具有低维结构的数据分布。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 消费者健康护理问题摘要的数据集与基准

对健康信息的追求已经让网络充斥着消费者的健康相关问题。一般来说，消费者使用过于描述性和外围的……

#research #paper #ai #nlp
4个月前 · ai · - · -

[Paper] 重新思考端到端 3D 感知的时空对齐

时空对齐对于自动驾驶（AD）中端到端（E2E）感知的时间建模至关重要，能够提供有价值的结构和纹理……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] AI辅导可以安全且有效地支持学生：在英国课堂的探索性RCT

一对一辅导被广泛认为是个性化教育的金标准，但其规模化成本仍然高得难以承受。为了评估基因……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] BOAD：通过 Bandit 优化发现层次化软件工程代理

大型语言模型（LLMs）已经展示出强大的推理和编码能力，但它们在推广到真实世界的软件工程（SWE）问题时仍然面临困难……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 3D形状生成中的记忆：实证研究

生成模型正日益被用于3D视觉，以合成新形状，但仍不清楚它们的生成是否依赖于记忆训练数据。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 基于后悔的联邦因果发现（未知干预）

大多数因果发现方法从观测数据中恢复表示 Markov 等价类的 completed partially directed acyclic graph。最近的工作 …

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[论文] Physics-Informed Neural Networks 用于器件与电路建模：NeuroSPICE 案例研究

我们提出 NeuroSPICE，这是一种基于物理信息的神经网络（PINN）框架，用于器件和电路仿真。不同于传统的 SPICE，它依赖于时间……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] Le Cam Distortion：一种用于鲁棒迁移学习的决策理论框架

分布漂移是现实机器学习的决定性挑战。主流范式——无监督领域适应（Unsupervised Domain Adaptation，UDA）——强制特征不变性……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 闭环：通过多智能体角色扮演合成无限工具使用数据

让大型语言模型（LLMs）可靠地调用外部工具仍然是自主代理的关键瓶颈。现有方法在 thr...

#research #paper #ai #nlp
4个月前 · software · - · -

[论文] 基于 Simulink 模型的并行代码生成用于事件驱动和定时驱动的 ROS 2 节点

近年来，embedded systems 的复杂性和规模，尤其是在快速发展的 autonomous driving systems 领域，显著增加。

#research #paper #software
4个月前 · ai · - · -

[Paper] 大型语言模型中的发散-收敛思维用于创意问题生成

大型语言模型（LLMs）在生成教育问题和练习方面具有显著潜力，使教育者能够创建大规模的学习材料……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 可扩展残差特征聚合框架与混合元启发式优化用于多模态CT成像的稳健早期胰腺肿瘤检测

胰腺肿瘤的早期检测是一个主要的临床难题，主要原因在于肿瘤往往在对比度极低的边缘出现。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 摄像头 RGB‑NIR 火灾检测

提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……

#research #paper #ai #computer-vision
4个月前 · software · - · -

[Paper] 考虑并行化的自动驾驶软件基于模型的开发

近年来，自动驾驶汽车因被视为解决各种社会问题的方案之一而受到关注。然而，自动驾驶软件需要……

#research #paper #software
4个月前 · ai · - · -

[Paper] RxnBench：一个用于评估大语言模型在科学文献中对化学反应理解的多模态基准

将多模态大语言模型（MLLMs）整合到化学领域有望彻底改变科学发现的方式，但它们理解 d...

#research #paper #ai #machine-learning #computer-vision
4个月前 · software · - · -

[Paper] 超越每线程锁集合：多线程临界区与动态死锁预测

锁集通常用于死锁的动态分析。标准的每线程锁集构建仅考虑在同一线程中获取的锁，b...

#research #paper #software
4个月前 · software · - · -

[Paper] 超越正确性：通过多步自动定理证明揭示 LLM 生成的推理逻辑缺陷

大型语言模型（LLMs）已经展示出令人印象深刻的推理能力，因而被采用于医疗、法律等高风险领域，……

#research #paper #software

Newer posts

Older posts