[Paper] 基于大型语言模型的语音对话代理
语音对话代理正趋向于 voice-native LLMs。本教程提炼了从级联式 ASR/NLU 到端到端、检索与 vision‑... 的路径。
3342 posts from this source
语音对话代理正趋向于 voice-native LLMs。本教程提炼了从级联式 ASR/NLU 到端到端、检索与 vision‑... 的路径。
大型语言模型正日益嵌入学术写作工作流中,然而现有的助手仍然是编辑器的外部工具,阻碍了深度交互……
本文提出并评估了基于两个不同高性能计算集群的分布式系统中远程内存访问的各种机制。我们正在比较这些方案……
Eye-based emotion recognition 使 eyewear devices 能够感知用户的情绪状态并支持 emotion-aware interaction,然而部署此类功能……
近期在 general-purpose AI systems 与 attention-based transformers 方面的进展,为我们提供了一个潜在的窗口,以了解 neocortex 和 cerebellum,尽管它们的...
在本文中,我们提出了一种基于属性特定表示(例如,color、shape、size)的新 neural network model,这是关联记忆的经典示例。
内存解耦有望扩展内存容量并提升 HPC 系统的利用率。然而,访问远程内存的性能开销……
向量相似性搜索已成为 AI 驱动的应用(如大型语言模型(LLMs))中的关键组件。为了实现高召回率和低延迟,...
Metric graphs 是通过将标准图中的边与实数轴上的线段对应,并在图的顶点处将这些线段粘合而得到的结构。
社交媒体上的辱骂性言论构成了一个持久且不断演变的挑战,这一挑战源于新俚语和旨在混淆视听的词汇的持续出现……
生成模型最近在视觉运动策略学习方面展现出显著的前景,使得在多样化的具身 AI 任务中实现灵活且富有表现力的控制。
扩散模型在数据驱动学习以及从复杂的、未归一化的目标分布中采样方面取得了显著成功。基于此……
Self-driving laboratories 为减少生物科学中劳动密集、耗时且常常难以重复的工作流程提供了一条有前景的路径。
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
Video generators 正在日益被评估为潜在的 world models,这要求它们对 physical laws 进行编码和理解。我们调查它们的…
相机和物体运动是视频叙事的核心。然而,精确编辑这些捕获的运动仍然是一个重大挑战,尤其是在...
统一多模态模型(UMMs)旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA,一种原生的 UMM,...
MeanFlow(MF)最近被确立为一种一步生成建模的框架。然而,它的“fastforward”特性在…
随着大语言模型规模的不断扩大,低精度数值格式(如 NVFP4)因其速度和内存优势而日益受到欢迎……
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
测试时伸缩(Test-time scaling,TTS)——在推理过程中动态分配计算资源——是提升大型语言模型(LLMs)推理能力的一个有前景的方向。
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
大型语言模型(LLMs)在隐藏的参数空间中编码事实知识,这些空间难以检查或控制。虽然稀疏自编码器(SAEs)……
大规模并行仿真已将机器人强化学习(RL)训练时间从数天缩短到数分钟。然而,要实现快速且可靠的仿真到…
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
我们介绍了 LLM CHESS,一个旨在探究大型语言模型在推理和遵循指令能力上的泛化性的评估框架(...)。
离线强化学习(RL)在从预先收集的数据集训练策略时提供了一条有前景的途径,尤其是在获取额外交互数据困难的情况下……
研究目的:腕部加速度计被广泛用于推断睡眠-清醒状态。先前的研究显示,唤醒检测效果不佳,且缺乏跨设备的通用性。
在资源受限的边缘设备上进行联邦学习(FL)面临一个关键挑战:训练深度神经网络(DNN)所需的计算能量……
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
全球矿物加工能力必须快速扩张,以满足关键矿产的需求,这些矿产对构建清洁能源技术至关重要。
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...
深度研究代理(DRAs)旨在通过迭代的信息检索与综合,自动生成分析师级报告。然而,大多数现有的 DRA……
可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的推理能力,使得自主代理能够……
大型语言模型(LLMs)的崛起引发了对代理的浓厚兴趣,导致代理框架的快速增长。代理框架是软件……
近期大型语言模型(LLMs)的进展主要得益于其新兴的推理能力,尤其是通过长链式思考(CoT)……
理解大型语言模型(LLMs)的内部思考过程以及幻觉产生的原因仍然是一个关键挑战。为此,我们引入了 l...
物联网的增长使新一代应用成为可能,将计算和智能推向网络边缘。这一趋势,如何...
对 MPI 应用程序进行详细的跟踪分析对于性能工程至关重要,但不断增长的跟踪规模和复杂的通信行为常常导致 c...
本文分析了人工智能 (AI) 与混合整数线性规划 (MILP) 的结合,以在...中应对复杂的优化挑战。
自动化测试生成已成为确保软件质量的关键技术,尤其是在现代基于 API 的架构中。然而,自动生成…
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
符号回归(SR)是一种回归方法,旨在发现描述变量之间关系的数学表达式,且它通常...
图神经网络(GNN)通过将不规则、受内存限制的图遍历与规则、计算密集的稠密矩阵运算相结合,提出了一个根本性的硬件挑战。
Digital Twins (DTs) 正在越来越多地作为复杂社会技术系统中的自主决策者使用。它们的数学上最优的决策常常会出现偏差……
软件在复杂系统开发和原型制作中扮演着日益重要的角色,近年来,MIT Lincoln Laboratory一直致力于改进……
现实世界中的关系数据通常以图的形式组织,这些图提供了进行分析推导所需的逻辑抽象,使其简化……