[Paper] 递归思考-回答过程
Think-Answer 推理器(如 DeepSeek‑R1)通过利用可解释的内部推理取得了显著进展。然而,尽管经常出现……
4654 posts from this source
Think-Answer 推理器(如 DeepSeek‑R1)通过利用可解释的内部推理取得了显著进展。然而,尽管经常出现……
多模态检索是将跨异构模态的查询信息聚合,以检索所需目标的任务。最先进的多模态……
大语言模型和多模态基础模型的快速采用使得多模态数据准备管道成为关键的 AI 基础设施。这些 pi...
我们考虑一个由 n 个参与方组成的异步网络,这些参与方通过安全信道相互连接,其中至多 t 个是拜占庭的。我们研究 common coin tossing,一种…
云原生系统的动态性和复杂性为根本原因分析(Root Cause Analysis,RCA)带来了重大挑战。虽然基于因果关系的RCA方法已经显示出……
访问前沿的大型语言模型(LLMs),例如 GPT-5 和 Gemini-2.5,通常受到高昂的价格、支付壁垒和地区限制的阻碍。T...
我们在整个时间范围内统一地、以高概率量化两层神经网络在随机梯度训练下的预测之间的差异。
训练工具使用代理通常依赖于基于结果的过滤:对成功轨迹进行监督微调(Supervised Fine-Tuning,SFT)和对…进行强化学习(Reinforcement Learning,RL)。
我们推出了 Legal RAG Bench,这是一套用于评估法律 RAG 系统端到端性能的基准和评估方法论。作为基准,Legal RAG Bench…
大型语言模型(LLMs)已成为自然语言处理和整体人工智能的关键工具。目前的开源模型……
虽然密集的生物医学嵌入实现了强大的性能,但其黑箱特性限制了其在临床决策中的实用性。最近基于问题的 int...
共享的 L1 内存集群,由简化指令处理器(处理单元 - PEs)组成,通常用作现代大规模并行计算的构建块。
现代软件在很大程度上依赖 third-party software libraries 来简化开发过程。将一个库替换为类似的对应库的行为……
学术会议的 carbon footprint 正在成为日益受到争论的话题。重要的是要考虑参加会议所获得的收益是否值得……
这是《The Semantic Arrow of Time》五篇论文中的第一篇。论证以一个主张开始:computing's arrow of time 是语义性的,而非热力学的……
Message passing 被广泛认为是分布式系统的基本原语。本文认为传统的消息系统嵌入了一个类别误…
Speculative Decoding (SD) 已成为加速大型语言模型(LLM)推理的首选技术,通过将 token 生成解耦为快速 dra...
在受限预算下,通过主动成对比较在一组项目中确定胜者是偏好学习中的一个具有挑战性的问题。The go...
本文呈现了一项受生物学启发的局部学习在手写数字识别中的受控实证研究。我们评估了一种受STDP启发的竞争性……
从未标定的图像进行密集的4D重建仍然是一个关键挑战,现有方法依赖于缓慢的test-time优化或碎片化的、task-specific……
将 video generation 从秒级扩展到分钟级面临一个关键瓶颈:虽然 short‑video 数据丰富且 high‑fidelity,但 coherent long‑form 数据却是……
多轮交互与大型语言模型通常会在对话历史中保留助手自身的过去回复。在本工作中,我们重新审视……
现代优化器如 Adam 和 Muon 在训练大语言模型中起着核心作用,但它们对一阶和二阶动量的依赖会引入显著的……
Transformer 已被确立为最近序列建模进展的事实标准骨干,主要是因为它们不断增长的记忆容量能够扩展……
可辨识性在表征学习中通常使用标准指标(例如 MCC、DCI、R^2)在具有已知真实因子的合成基准上进行评估。
许多读者如今在评估在线新闻的可信度时感到困难,因为可靠的报道与错误信息并存。TREC 2025 DRAGUN(Detectio...
人类通过关键转变来感知动作,这些转变在多个抽象层次上结构化动作,而机器则依赖视觉特征,往往……
神经网络被假设实现可解释的因果机制,但验证这一点需要找到因果抽象——一种更简单的、高层次的……
基于扩散的真实世界图像超分辨率(Real-ISR)在感知质量上表现出色,但由于迭代采样导致的高计算成本而受到限制。
GPU 加速的服务器平台虽然共享大部分硬件架构,但由于细微的硬件差异——不同…
在机器人系统中,安全关键任务规划仍然具有挑战性:传统规划器在可扩展性方面表现不佳,基于强化学习(Reinforcement Learning,RL)的方法……
现代显微镜常规产生千兆像素图像,包含跨多个空间尺度的结构,从细胞形态的细微特征到更广阔的组织或……
Diffusion models 实现了 state-of-the-art 视频生成质量,但由于需要大量的 sequential denoising steps,inference 仍然非常昂贵……
尽管具备强大能力,Multimodal Large Language Models(MLLMs)仍可能产生看似合理却错误的输出,阻碍可靠部署。准确的……
我们提出了一种可扩展的方法论,用于在多轮交互中评估语言模型,使用一套需要有效沟通的协作游戏……
小型语言模型(SLMs)已成为针对特定任务的高效替代方案,取代大型语言模型。然而,它们常常被用于...
检索增强生成(RAG)向多模态领域的扩展加剧了处理复杂视觉文档的挑战,例如 fin...
RTL 设计的属性检查是形式验证中的核心任务。在可用的引擎中,IC3/PDR 是一种被广泛使用的骨干,其性能至关重要。
背景。Automated test execution 是收集软件项目质量信息的重要活动。然而,所谓的 flaky tests …
Serverless computing 简化了云部署,但在管理服务延迟和碳排放方面带来了新的挑战。降低 cold-start latency 需要……
我们提出了一个具有异步混合选择(MC)的多方会话类型(MST)框架。我们为 MC 提出了一个核心构造,允许瞬时不一致……
Microservice architectures 是一种新兴技术,它将业务逻辑构建为一套小型服务。每个 microservice 在其自己的进程中运行,并且 c...
AI 编码代理让软件开发人员能够快速生成代码,这引发了项目经理和开源维护者的一个实际问题:能否 vib...
软件工程代理(SWE)正在快速提升,近期的进展主要得益于强化学习(RL)。然而,RL 训练受到……
对于大型语言模型的机器忘记(Machine unlearning)常常面临隐私困境,即严格的约束禁止共享服务器的参数或客户端的…
现代云服务器经常将多个对延迟敏感的微服务实例共同放置,以提高资源利用率。然而,微服务的多样性…
PoCo 是一种技术,旨在通过逐步移除障碍条件状态来增强现代基于覆盖的种子选择(CSS)技术(如 afl‑cmin)。
随着分布式科学工作流的重要性日益提升,确保 Quality of Service (QoS) 约束(例如最小化……)的需求变得至关重要。