Source

arXiv

4796 posts from this source

排序:

4个月前 · ai · - · -

[Paper] FACTS Leaderboard：大语言模型事实性综合基准

我们推出 The FACTS Leaderboard，一个在线排行榜套件以及相关的一组基准测试，全面评估语言模型的能力。

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] 替换，而非扩展：通过固定预算证据组装缓解多跳 RAG 中的上下文稀释

检索增强生成（Retrieval‑Augmented Generation，RAG）系统在多跳查询时常常失败，尤其是当初始检索遗漏了桥接事实时。先前的纠正方法，例如 …

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] Script Gap：评估 LLM Triage 在真实世界环境中对印度语言的本土脚本与罗马脚本

大型语言模型（LLMs）正日益在印度的高风险临床应用中部署。在许多此类环境中，使用印度语言的说话者频繁……

#research #paper #ai #machine-learning #nlp
4个月前 · devops · - · -

[Paper] TriHaRd：更高的弹性用于TEE可信时间

准确测量时间的流逝对许多应用至关重要。然而，在诸如 Intel SGX 的可信执行环境（TEEs）中，时间源是…

#research #paper #devops
4个月前 · ai · - · -

[Paper] PACIFIC：一个用于生成基准以检查代码中精确自动检查指令遵循的框架

基于大型语言模型（LLM）的代码助手已经成为生成式 AI 的强大应用，展示了在代码生成方面的令人印象深刻的能力……

#research #paper #ai #machine-learning
4个月前 · devops · - · -

[Paper] 跨链通信中多桥架构的成功证明与奖励分配协议

单桥区块链解决方案实现跨链通信。然而，它们伴随着中心化和单点故障风险。这篇...

#research #paper #devops
4个月前 · ai · - · -

一种脉冲神经网络实现的高斯信念传播

贝叶斯推断提供了对自然主体信息处理的原理性解释。然而，神经机制如何执行 t...

#research #paper #ai
4个月前 · software · - · -

[Paper] 分析开发者在 GitHub 仓库中关于欧盟和美国隐私立法合规性的讨论

背景：隐私立法已经影响了软件系统的开发方式，促使从业者更新他们的实现。具体而言，欧盟 ...

#research #paper #software
4个月前 · ai · - · -

[Paper] Phythesis：Physics-Guided Evolutionary Scene Synthesis 用于通过 LLMs 的节能数据中心设计

Data center (DC) 基础设施是支撑计算能力需求不断增长的骨干。传统的设计方法融合了人...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] Phythesis：物理引导的进化场景合成用于通过 LLM 实现节能数据中心设计

Data center (DC) 基础设施作为支撑计算能力日益增长需求的骨干。传统的设计方法融合了人...

#research #paper #ai #machine-learning
4个月前 · devops · - · -

[Paper] ESS：一种以卸载为中心的潜在缓存管理架构，针对 DeepSeek‑V3.2‑Exp

DeepSeek-V3.2-Exp 引入了一种稀疏注意力机制，显著降低了长上下文场景下的推理延迟。虽然整体吞吐量…

#research #paper #devops
4个月前 · software · - · -

[Paper] 解码人类与LLM在编码中的协作：对真实环境下多轮对话的实证研究

Large language models (LLMs) 正在日益充当动态对话界面，支持模拟人类对话的多轮交互……

#research #paper #software
4个月前 · ai · - · -

[Paper] 从实验室到现实：对深度学习模型和LLMs的漏洞检测实用评估

基于深度学习 (DL) 的漏洞检测方法在 benchmark 数据集上表现出强大的性能，但它们在实际中的有效性仍未得到充分验证。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] Symphony：一种启发式归一化校准优势演员-评论家算法在类人机器人中的应用

在我们的工作中，我们并未明确暗示认为人类学习很快是一种误解。学习过程需要时间。婴儿开始学习移动的……

#research #paper #ai
4个月前 · software · - · -

[Paper] UniCoR：模态协作实现鲁棒跨语言混合代码检索

有效的 code retrieval 是不可或缺的，它已成为一种重要范式，使用 natural language 和 code snippets 的混合模式来搜索代码。N...

#research #paper #software
4个月前 · ai · - · -

[论文] 聚类联邦学习与层次知识蒸馏

聚类联邦学习（CFL）已成为一种强有力的方法，用于解决数据异构性并在大规模分布式物联网环境中确保隐私。

#research #paper #ai #machine-learning
4个月前 · devops · - · -

[Paper] 差分隐私用于医疗物联网-云系统中的安全机器学习

医疗保健已经变得异常先进，wearables 和 connected medical devices 正在彻底改变 remote patient monitoring、emergency response、……

#research #paper #devops
4个月前 · devops · - · -

[Paper] 实现宽条带的实用化：级联奇偶校验 LRC 用于高效修复和高可靠性

使用宽条带的 Erasure coding 正日益被采用，以降低大规模存储系统的存储开销。然而，现有的 Locally Repairable Codes（局部可修复码）……

#research #paper #devops
4个月前 · ai · - · -

[Paper] 如何欺骗你的 AI TA：对 LLM 代码评估中的学术越狱的系统研究

在学术环境中，使用大型语言模型（LLMs）作为代码评估的自动评审正变得越来越普遍。但它们的可靠性……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] Confucius Code Agent：工业规模的开源 AI 软件工程师

现实世界的 AI 软件工程需要能够在海量代码库上进行推理、在跨会话和长会话中保持持久记忆的编码代理，且……

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] 用于已剥离二进制分析的跨模态检索模型

基于 LLM-agent 的 binary code analysis 已经在广泛的软件安全场景中展示出显著的潜力，包括漏洞检测……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] D2M：去中心化、隐私保护、激励兼容的协作学习数据市场

对协作机器学习和数据分析日益增长的需求，要求建立能够平衡隐私、信任的安全且去中心化的数据共享框架。

#research #paper #ai #machine-learning
4个月前 · devops · - · -

[Paper] Bit of a Close Talker: 实用指南：Serverless Cloud 共置攻击

Serverless computing 已经通过提供一种高效且具成本效益的方式，使用户能够在无需…

#research #paper #devops
4个月前 · ai · - · -

[Paper] 高维数据处理：在本地和分布式环境中对 Machine Learning 与 Deep Learning 架构进行 Benchmarking

本文件报告了在 Big Data 课程中实施的实践和方法的顺序。它详细描述了从处理开始的工作流……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 异构 GPU 集群上 DL 工作负载的混合学习与基于优化的动态调度

现代云平台日益托管大规模深度学习（DL）工作负载，需要高吞吐量、低延迟的 GPU 调度。然而，日益增长的 h...

#research #paper #ai #machine-learning
4个月前 · software · - · -

[Paper] 研究与自动化软件质量问题的解决

有效的问题解决对于维护软件质量至关重要。然而，开发人员经常遇到诸如低质量的问题报告、有限…

#research #paper #software
4个月前 · ai · - · -

[Paper] 探索使用强化学习实现多目标优化的更高效率

在优化和搜索过程中的效率仍然是一个挑战，它影响着优化算法的性能和使用。Utilisin...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 空间脉冲神经网络实现高效且鲁棒的时序计算

现代机器智能的效率取决于在最小计算成本下实现高精度。在脉冲神经网络（SNNs）中，突触延迟是c...

#research #paper #ai
4个月前 · ai · - · -

[Paper] 神经网络中的无歧义表征：信息论方法视角下的意向性

表征遍及我们的日常体验，从代表声音的字母到编码数字文件的 bit strings。虽然这些表征需要外部…

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 缩小基于梯度规划的世界模型的训练-测试差距

World models 与模型预测控制 (MPC) 相结合，可以在大规模专家轨迹数据集上离线训练，并实现对广泛场景的泛化。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] GAINS：基于高斯的稀疏多视角捕获逆向渲染

最近在基于 Gaussian Splatting 的逆渲染方面的进展将 Gaussian 基元扩展了着色参数和物理上有依据的光传输，enabli...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] ReViSE：在统一模型中实现基于推理的视频编辑与自反学习

Video unified models 在理解和生成方面表现出强大的能力，但即使配备了 …，它们在基于推理的视觉编辑方面仍然存在困难。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Splatent：用于新视角合成的扩散潜变量点绘

Radiance field 表示最近在常用于 diffusion models 的 VAE 的 latent space 中被探索。这一方向提供了高效的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LISN：语言指令的社交导航与基于VLM的控制器调制

为了实现human-robot coexistence，socially aware navigation 对移动机器人至关重要。然而，现有的研究主要关注路径效率……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] FALCON：用于连续流的少步精确似然

在热力学平衡状态下对分子态进行可扩展采样是统计物理学长期存在的挑战。Boltzmann Generators 旨在解决这一问题。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] NordFKB：用于挪威地理空间 AI 的细粒度基准数据集

我们提出 NordFKB，这是一套用于挪威地理空间 AI 的细粒度 benchmark dataset，来源于权威且高度精确的国家 Felles KartdataBase …

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 监督学习关注

In-context learning with attention 使大型神经网络能够通过有选择地关注相关示例来进行特定上下文的预测。这里，我们 ada...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 神经机器翻译中的高效持续学习：低秩适配方法

神经机器翻译（NMT）中的持续学习面临灾难性遗忘和重新训练的高计算成本这两大挑战。此……

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] STACHE：用于强化学习策略的局部黑箱解释

Reinforcement learning 代理在 sparse-reward 或 safety-critical 环境中常常表现出意外行为，这导致对可靠的 debugging 和 verification 产生了强烈需求。

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[论文] 贝叶斯网络, 马尔可夫网络, Moralisation, Triangulation: 范畴视角

Moralisation 和 Triangulation 是允许在不同的概率分布因式分解为图模型的方式之间切换的变换。Mor...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

视觉语言模型（VLMs）在感知和描述视觉环境方面取得了令人印象深刻的进展。然而，它们主动推理的能力……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] YOPO-Nav：使用一次性视频的3DGS图进行视觉导航

视觉导航已成为一种实用的替代方案，取代了依赖详细映射和路径规划的传统机器人导航流水线。然而，c...

#research #paper #ai #computer-vision
4个月前 · devops · - · -

[Paper] 链路共享背压路由在无线多跳网络中

Backpressure (BP) 路由和调度是一种成熟的资源分配方法，适用于无线多跳网络，以其完全分布式操作而著称……

#research #paper #devops
4个月前 · ai · - · -

[Paper] 视觉航向预测用于自主空中飞行器

无人机（UAVs）与无人地面车辆（UGVs）的融合正日益成为智能自主系统发展的核心……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] SCOPE：语言模型作为一次性教师用于文本环境中的层次规划

在复杂的文本环境中进行长期规划面临重大挑战，因为动作空间是开放式的，观察往往模糊不清，且反馈稀疏……

#research #paper #ai #machine-learning #nlp
4个月前 · ai · - · -

[Paper] Human-in-the-Loop 与 AI：材料科学的元数据词汇众包

元数据词汇对于推进 FAIR 和 FARR 数据原则至关重要，但其开发受到有限的人力资源和不一致的 s...

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 探索蛋白质语言模型架构诱导的偏差对抗体理解的影响

最近在蛋白质语言模型（PLMs）方面的进展展示了在理解蛋白质序列方面的卓越能力。然而，差异的程度……

#research #paper #ai #machine-learning
4个月前 · ai · - · -

[Paper] 可证明的通过低 Logit 秩从现代语言模型学习

虽然现代语言模型及其内部工作机制极其复杂，最近的研究（Golowich, Liu & Shetty; 2025）提出了一种简单且潜在的……

#research #paper #ai #machine-learning

Newer posts

Older posts