[Paper] 快速解码扩散语言模型通过进度感知置信调度
Diffusion 大语言模型(dLLMs)提供了一种有前景的 autoregressive 模型替代方案,但其实际效用因生成缓慢、迭代……
4797 posts from this source
Diffusion 大语言模型(dLLMs)提供了一种有前景的 autoregressive 模型替代方案,但其实际效用因生成缓慢、迭代……
Test-time policy optimization 使大语言模型(LLMs)能够通过利用自生成 rollouts 的反馈来适应 distribution shifts。然而,...
多数投票已被证明在封闭式问答中通过聚合并行推理轨迹而有效。然而,它并不直接适用于开放式……
在低资源语言中,hate speech 识别仍然是一个困难的问题,原因是数据集不足、正字法异质性以及语言多样性。
高性能计算 (HPC) 中心提供先进的基础设施,使得在极大规模上进行科学研究成为可能。这些中心使用硬件 …
代码生成型 LLM 主要在静态工件(源代码、注释、规范)上进行训练,几乎不涉及运行时行为的具体化。因此……
数字声音合成提供了探索包含数百万种配置的庞大参数空间的机会。质量多样性(QD)进化算法……
在生成式 AI 以及更广泛的 AI 辅助编码趋势的推动下,‘vibe coding’ 这一术语指的是通过自然语言提示来创建软件的过程……
数据科学项目经常表现出高失败率,这主要是由技术限制、组织局限以及风险管理实践不足所驱动的。
将一组软件变体迁移到软件产品线(SPL)是一项昂贵且可能具有挑战性的工作。事实上,SPL 工程可以显著……
在分布式系统中,使进程广播消息的最常见策略是一对全(one-to-all)通信。然而,这种方法不可伸缩……
Beaconless geocast 协议是用于在移动自组织无线网络中发送消息的路由协议,在这种网络中,每个节点唯一可用的信息是……
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……
对人工智能 (AI) 工作负载在各种计算环境中的需求日益增长,推动了对更高效的数据管理策略的需求。
本技术白皮书介绍了交互式代理调用树(Interactive Agents Call Tree,IACT),这是一种计算模型,旨在解决 static、hard‑coded 的局限性……
语音对话代理正趋向于 voice-native LLMs。本教程提炼了从级联式 ASR/NLU 到端到端、检索与 vision‑... 的路径。
大型语言模型正日益嵌入学术写作工作流中,然而现有的助手仍然是编辑器的外部工具,阻碍了深度交互……
本文提出并评估了基于两个不同高性能计算集群的分布式系统中远程内存访问的各种机制。我们正在比较这些方案……
Eye-based emotion recognition 使 eyewear devices 能够感知用户的情绪状态并支持 emotion-aware interaction,然而部署此类功能……
近期在 general-purpose AI systems 与 attention-based transformers 方面的进展,为我们提供了一个潜在的窗口,以了解 neocortex 和 cerebellum,尽管它们的...
在本文中,我们提出了一种基于属性特定表示(例如,color、shape、size)的新 neural network model,这是关联记忆的经典示例。
内存解耦有望扩展内存容量并提升 HPC 系统的利用率。然而,访问远程内存的性能开销……
向量相似性搜索已成为 AI 驱动的应用(如大型语言模型(LLMs))中的关键组件。为了实现高召回率和低延迟,...
Metric graphs 是通过将标准图中的边与实数轴上的线段对应,并在图的顶点处将这些线段粘合而得到的结构。
社交媒体上的辱骂性言论构成了一个持久且不断演变的挑战,这一挑战源于新俚语和旨在混淆视听的词汇的持续出现……
生成模型最近在视觉运动策略学习方面展现出显著的前景,使得在多样化的具身 AI 任务中实现灵活且富有表现力的控制。
扩散模型在数据驱动学习以及从复杂的、未归一化的目标分布中采样方面取得了显著成功。基于此……
Self-driving laboratories 为减少生物科学中劳动密集、耗时且常常难以重复的工作流程提供了一条有前景的路径。
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
Video generators 正在日益被评估为潜在的 world models,这要求它们对 physical laws 进行编码和理解。我们调查它们的…
相机和物体运动是视频叙事的核心。然而,精确编辑这些捕获的运动仍然是一个重大挑战,尤其是在...
统一多模态模型(UMMs)旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA,一种原生的 UMM,...
MeanFlow(MF)最近被确立为一种一步生成建模的框架。然而,它的“fastforward”特性在…
随着大语言模型规模的不断扩大,低精度数值格式(如 NVFP4)因其速度和内存优势而日益受到欢迎……
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
测试时伸缩(Test-time scaling,TTS)——在推理过程中动态分配计算资源——是提升大型语言模型(LLMs)推理能力的一个有前景的方向。
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
大型语言模型(LLMs)在隐藏的参数空间中编码事实知识,这些空间难以检查或控制。虽然稀疏自编码器(SAEs)……
大规模并行仿真已将机器人强化学习(RL)训练时间从数天缩短到数分钟。然而,要实现快速且可靠的仿真到…
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
我们介绍了 LLM CHESS,一个旨在探究大型语言模型在推理和遵循指令能力上的泛化性的评估框架(...)。
离线强化学习(RL)在从预先收集的数据集训练策略时提供了一条有前景的途径,尤其是在获取额外交互数据困难的情况下……
研究目的:腕部加速度计被广泛用于推断睡眠-清醒状态。先前的研究显示,唤醒检测效果不佳,且缺乏跨设备的通用性。
在资源受限的边缘设备上进行联邦学习(FL)面临一个关键挑战:训练深度神经网络(DNN)所需的计算能量……
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
全球矿物加工能力必须快速扩张,以满足关键矿产的需求,这些矿产对构建清洁能源技术至关重要。
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...