[Paper] FACTS Leaderboard:大语言模型事实性综合基准
我们推出 The FACTS Leaderboard,一个在线排行榜套件以及相关的一组基准测试,全面评估语言模型的能力。
4796 posts from this source
我们推出 The FACTS Leaderboard,一个在线排行榜套件以及相关的一组基准测试,全面评估语言模型的能力。
检索增强生成(Retrieval‑Augmented Generation,RAG)系统在多跳查询时常常失败,尤其是当初始检索遗漏了桥接事实时。先前的纠正方法,例如 …
大型语言模型(LLMs)正日益在印度的高风险临床应用中部署。在许多此类环境中,使用印度语言的说话者频繁……
准确测量时间的流逝对许多应用至关重要。然而,在诸如 Intel SGX 的可信执行环境(TEEs)中,时间源是…
基于大型语言模型(LLM)的代码助手已经成为生成式 AI 的强大应用,展示了在代码生成方面的令人印象深刻的能力……
单桥区块链解决方案实现跨链通信。然而,它们伴随着中心化和单点故障风险。这篇...
贝叶斯推断提供了对自然主体信息处理的原理性解释。然而,神经机制如何执行 t...
背景:隐私立法已经影响了软件系统的开发方式,促使从业者更新他们的实现。具体而言,欧盟 ...
Data center (DC) 基础设施是支撑计算能力需求不断增长的骨干。传统的设计方法融合了人...
Data center (DC) 基础设施作为支撑计算能力日益增长需求的骨干。传统的设计方法融合了人...
DeepSeek-V3.2-Exp 引入了一种稀疏注意力机制,显著降低了长上下文场景下的推理延迟。虽然整体吞吐量…
Large language models (LLMs) 正在日益充当动态对话界面,支持模拟人类对话的多轮交互……
基于深度学习 (DL) 的漏洞检测方法在 benchmark 数据集上表现出强大的性能,但它们在实际中的有效性仍未得到充分验证。
在我们的工作中,我们并未明确暗示认为人类学习很快是一种误解。学习过程需要时间。婴儿开始学习移动的……
有效的 code retrieval 是不可或缺的,它已成为一种重要范式,使用 natural language 和 code snippets 的混合模式来搜索代码。N...
聚类联邦学习(CFL)已成为一种强有力的方法,用于解决数据异构性并在大规模分布式物联网环境中确保隐私。
医疗保健已经变得异常先进,wearables 和 connected medical devices 正在彻底改变 remote patient monitoring、emergency response、……
使用宽条带的 Erasure coding 正日益被采用,以降低大规模存储系统的存储开销。然而,现有的 Locally Repairable Codes(局部可修复码)……
在学术环境中,使用大型语言模型(LLMs)作为代码评估的自动评审正变得越来越普遍。但它们的可靠性……
现实世界的 AI 软件工程需要能够在海量代码库上进行推理、在跨会话和长会话中保持持久记忆的编码代理,且……
基于 LLM-agent 的 binary code analysis 已经在广泛的软件安全场景中展示出显著的潜力,包括漏洞检测……
对协作机器学习和数据分析日益增长的需求,要求建立能够平衡隐私、信任的安全且去中心化的数据共享框架。
Serverless computing 已经通过提供一种高效且具成本效益的方式,使用户能够在无需…
本文件报告了在 Big Data 课程中实施的实践和方法的顺序。它详细描述了从处理开始的工作流……
现代云平台日益托管大规模深度学习(DL)工作负载,需要高吞吐量、低延迟的 GPU 调度。然而,日益增长的 h...
有效的问题解决对于维护软件质量至关重要。然而,开发人员经常遇到诸如低质量的问题报告、有限…
在优化和搜索过程中的效率仍然是一个挑战,它影响着优化算法的性能和使用。Utilisin...
现代机器智能的效率取决于在最小计算成本下实现高精度。在脉冲神经网络(SNNs)中,突触延迟是c...
表征遍及我们的日常体验,从代表声音的字母到编码数字文件的 bit strings。虽然这些表征需要外部…
World models 与模型预测控制 (MPC) 相结合,可以在大规模专家轨迹数据集上离线训练,并实现对广泛场景的泛化。
最近在基于 Gaussian Splatting 的逆渲染方面的进展将 Gaussian 基元扩展了着色参数和物理上有依据的光传输,enabli...
Video unified models 在理解和生成方面表现出强大的能力,但即使配备了 …,它们在基于推理的视觉编辑方面仍然存在困难。
Radiance field 表示最近在常用于 diffusion models 的 VAE 的 latent space 中被探索。这一方向提供了高效的…
为了实现human-robot coexistence,socially aware navigation 对移动机器人至关重要。然而,现有的研究主要关注路径效率……
在热力学平衡状态下对分子态进行可扩展采样是统计物理学长期存在的挑战。Boltzmann Generators 旨在解决这一问题。
我们提出 NordFKB,这是一套用于挪威地理空间 AI 的细粒度 benchmark dataset,来源于权威且高度精确的国家 Felles KartdataBase …
In-context learning with attention 使大型神经网络能够通过有选择地关注相关示例来进行特定上下文的预测。这里,我们 ada...
神经机器翻译(NMT)中的持续学习面临灾难性遗忘和重新训练的高计算成本这两大挑战。此……
Reinforcement learning 代理在 sparse-reward 或 safety-critical 环境中常常表现出意外行为,这导致对可靠的 debugging 和 verification 产生了强烈需求。
Moralisation 和 Triangulation 是允许在不同的概率分布因式分解为图模型的方式之间切换的变换。Mor...
视觉语言模型(VLMs)在感知和描述视觉环境方面取得了令人印象深刻的进展。然而,它们主动推理的能力……
视觉导航已成为一种实用的替代方案,取代了依赖详细映射和路径规划的传统机器人导航流水线。然而,c...
Backpressure (BP) 路由和调度是一种成熟的资源分配方法,适用于无线多跳网络,以其完全分布式操作而著称……
无人机(UAVs)与无人地面车辆(UGVs)的融合正日益成为智能自主系统发展的核心……
在复杂的文本环境中进行长期规划面临重大挑战,因为动作空间是开放式的,观察往往模糊不清,且反馈稀疏……
元数据词汇对于推进 FAIR 和 FARR 数据原则至关重要,但其开发受到有限的人力资源和不一致的 s...
最近在蛋白质语言模型(PLMs)方面的进展展示了在理解蛋白质序列方面的卓越能力。然而,差异的程度……
虽然现代语言模型及其内部工作机制极其复杂,最近的研究(Golowich, Liu & Shetty; 2025)提出了一种简单且潜在的……