[Paper] 从 $P(y|x)$ 到 $P(y)$:探索预训练空间中的强化学习
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
流式 3D 重建旨在从视频流中恢复 3D 信息,如相机位姿和点云,这需要几何精度,t...
随着语言模型日益被用于复杂的自主任务,它们在更长时间范围内进行准确推理的能力变得至关重要。An essentia...
评估 LLMs 具有挑战性,因为基准分数往往无法捕捉模型在真实世界中的实用性。相反,用户常常依赖 “vibe-testing”:非正式的……
我们考虑针对矿池的区块拦截攻击,尤其是最先进的 Power Adjusting Withholding (PAW) 攻击。我们提出了一种推广……
虽然音视频语言模型(AVLMs)在最近几年取得了显著进展,但它们的可靠性受到跨模态幻觉的瓶颈限制。
修辞性问题的提出不是为了获取信息,而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...
虽然端到端的 Vision-Language-Action(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会导致性能妥协……
LLM 推理轨迹存在复杂缺陷——*Step Internal Flaws*(逻辑错误、幻觉等)和*Step-wise Flaws*(思考过度、思考不足……)。
虽然大型语言模型(LLMs)已经赋能AI研究代理执行孤立的科学任务,但自动化复杂的真实世界工作流,例如LLM……
序列推荐在学术界和工业界,尤其是电子商务领域,变得日益突出。其主要目标是提取用户偏好…
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
Large Language Models (LLMs) 现在能够生成高度流畅、类人文本。它们支持许多应用,但也引发了诸如大…的担忧。
最近的研究表明,(stochastic) gradient descent 会自组织到接近不稳定边界的区域,从而塑造了优化过程以及所找到的解。Momentum...
后训练阶段对语言模型的适配通常通过参数更新或基于输入的方法实现,例如 fine-tuning、parameter-efficient adaptation 等。
我们提出 UMI-3D,这是一种多模态扩展的 Universal Manipulation Interface(UMI),用于在具身操作中实现稳健且可扩展的数据收集。虽然 …
On-policy knowledge distillation (OPD) 在其自身的 rollouts 上,在来自 teacher 的 token‑level supervision 下训练 student。并非所有 token 位置的重要性相同……
我们引入 Multistage Conditional Compositional Optimization(MCCO)作为一种在不确定性下进行决策的新范式,它结合了多阶段……
语义多目标跟踪(SMOT)将多目标跟踪扩展为具有语义输出,例如视频摘要、实例级别的字幕和交互标签……
在编程语言中,解析和重写引用是基础工作。受真实的反编译任务的启发,我们将引用重写抽象为 t...
Human-Object Interaction (HOI) 检测是一个长期存在的计算机视觉问题,旨在预测人类与物体之间的交互。当前…
公平性在算法决策中通常在预测空间中定义,其中预测性能——用作决策者(DM)效用的代理……
生成式人工智能的最新进展,尤其是大型语言模型(LLMs),激发了人们对自动化或协助Bu...的日益兴趣。
现代分布式系统会产生大量日志,这些日志可以被分析以支持关键的 AIOps 任务,例如故障诊断,它在…
Diffusion language models 最近作为标准语言模型的主要替代方案出现,原因是它们具备 bidirectional attention 和并行…
缺乏关于用于训练大型语言模型(LLMs)的代码数据集的透明度,使得检测、评估和缓解数据泄漏变得困难。我们 pr...
根据建构主义理论,当示例基于学生自己的代码时,学生对软件安全的学习更为有效。通用示例往往会失败……
自动代码生成仍然是软件工程中的一个持久挑战,因为传统的 multi-agent 框架常常受到 static planning 的限制……
软件工程研究一直专注于自动化维护和演化过程,以降低成本并提高可靠性。foundation 的出现……
软件工程中的情感分析侧重于理解软件制品中表达的情感。先前的研究指出了其局限性。
深度学习(Deep Learning,DL)在克隆检测中正变得越来越普及,其动机是实现该任务的近乎完美的性能。特别是在…
分离式存储系统通过将存储资源与计算资源分离,提高资源利用率并实现存储和计算资源的独立扩展。
在缺乏持续外部输入的情况下,自我维持的神经活动是神经系统动力学的基本特征,然而其出现的条件……
本研究考察了加性噪声和乘性噪声对单个泄漏积分‑发放(LIF)神经元以及训练后的脉冲神经网络的影响……
SAKURAONE 是由樱花互联网研究中心开发和运营的托管高性能计算(HPC)集群。它基于 KOKARYOKU PHY ba...
Brain digital twins 旨在提供对大脑作为动力系统的忠实、个体化的计算表示,从而实现机制性理解和……
计算密集型 AI 任务的增长凸显了降低处理成本、提升性能和能源效率的需求。这就需要……
我们提出了一种新颖的 end-to-end 隐私保护框架,由三个高效的 protocols 实现,适用于不同的部署场景,覆盖了输入和…
旅行窃贼问题(TTP)是一种著名的多组件优化问题,捕捉了两个组件之间的相互依赖:旅行路线跨越……
我们提出了一种新的稀疏矩阵格式 PackSELL,旨在支持多样的数据表示并实现高效的稀疏矩阵-向量乘法(SpMV)。
露天采矿调度是一个复杂的现实世界优化问题,涉及不确定的经济价值和动态变化的资源容量。Evol...
现代 GPU 工作负载,尤其是大语言模型(LLM)推理,受到 kernel launch 开销和粗粒度同步的限制,这限制了 inter‑kernel 并行性。
最近在视频生成方面的进展使得3D场景创建出现了新范式:生成受摄像机控制的视频,以模拟场景漫游,然后提升……
大型语言模型(LLMs)和视觉语言模型(VLMs)越来越多地通过布局和场景图等中间结构生成室内场景。
Snowflake 通过 elastic architecture 革命性地改变了数据仓库,该架构将 compute 与 storage 解耦,提供了可扩展的解决方案,以满足多样化的数据 analytic 需求……
虽然扩散模型在视觉生成领域占据主导地位,但它们在计算上效率低下,对所有扩散过程都采用统一的计算努力。
Direct Preference Optimization(DPO)的有效性取决于能够反映多模态任务中关键质量差异的偏好数据。存在……
城市地区因快速城市化和气候变化而日益容易受到热极端的影响。传统上,热极端的监测……