[Paper] JAL-Turn:联合声学-语言建模用于全双工语音对话系统的实时鲁棒轮次检测
尽管最近取得了进展,高效且稳健的 turn-taking detection 在工业级 Voice AI agent 部署中仍然是一个重大挑战。许多现有的...
尽管最近取得了进展,高效且稳健的 turn-taking detection 在工业级 Voice AI agent 部署中仍然是一个重大挑战。许多现有的...
我们提出 H-Node Adversarial Noise Cancellation(H-Node ANC),一种机制框架,能够识别、利用并防御 t 中的幻觉表征。
检索增强生成(RAG)系统中的知识库通常只组装一次,且从不进行修订,即使查询所需的事实是……
Agent 性能日益依赖于 harness engineering,但 harness 设计通常埋藏在 controller code 和 runtime-specific conventions 中,使得 …
Block-diffusion 语言模型通过将块级自回归解码与内部...相结合,提供了一条通往比自回归更快生成的有前景的路径。
随着大型语言模型(LLMs)的不断进步,仅通过人工监督来改进它们的成本日益高昂,且可扩展性受到限制……
对引用的准确解析是机器可读的学术基础设施所必需的。但是,尽管对这个问题持续关注,现有的评估 t...
通过对 arXiv 论文的分析,我们报告了若干词汇使用的变化,这些变化很可能是由大型语言模型(LLMs)驱动的,但此前尚未收到……
基于大型语言模型(LLM)的角色代理正被快速采用,作为跨多个领域的人类参与者的可扩展代理。然而,目前尚无系统…
On-policy distillation(OPD)在大语言模型(LLM)后训练中具有吸引力,因为它在学生生成的 rollouts 上评估 teacher feedback,而不是…
我们通过比较人类撰写的叙事与视觉语言模型(VLMs)在 Vis… 上生成的叙事,来研究视觉基础故事中的叙事连贯性。
大型语言模型(LLMs)的出现催生了编程范式的转变,产生了“vibe coding”,用户可以构建完整的项目……
检索增强生成(Retrieval‑augmented generation,RAG)系统正日益用于分析复杂的政策文件,但要实现足够的可靠性以供专家使用仍然是一个挑战……
幻觉仍然是大型语言模型(LLMs)的关键瓶颈,削弱了它们在实际应用中的可靠性,尤其是在检索‑...
阅读理解对特殊教育需求和残障(SEND)儿童来说是一个重大挑战,往往需要密集的一对一……
Adaptive scaffolding提升学习,但该领域缺乏在authentic tutoring dialogue中衡量它的可靠方法。这一空白已变得更加紧迫。
校准不准确的置信分数是将 AI 部署到临床环境中的实际障碍。一个始终过度自信的模型无法提供有用的信号……
Self-distillation 已成为 LLMs 的一种有效的 post-training 范式,通常能够提升性能并缩短 reasoning traces。然而,在 mathem...
Vision Language Models (VLMs) 正在越来越多地用于医学报告生成和视觉问答等任务。然而,流畅的诊断文本却……
标准评估实践假设大型语言模型(LLM)的输出在任务的上下文等价表述下是稳定的。这里,我们对这一假设进行测试……
具备代理能力的多模态大语言模型(MLLMs)(例如 OpenAI o3 和 Gemini Agentic Vision)通过迭代的视觉……展现出卓越的推理能力。
现有的多模态大语言模型(MLLMs)在 3D 空间推理方面存在困难,因为它们未能构建 3D 环境的结构化抽象……
构建面向数据库的自然语言接口(NLIDB)的任务,最近在数据库领域和自然语言处理领域都受到了广泛关注。
提高数据利用效率对于在生成轨迹成本高昂的长期任务中扩展强化学习(RL)至关重要。如何……
Temporal Relation Extraction (TRE) 需要识别两个事件或时间表达式在时间上的关系。现有的基于注意力的模型通常高亮……
LLMs 在全球部署,但其响应倾向于拥有丰富训练数据的文化。现有的文化本地化方法,如 prompti...
Benchmarks 和 leaderboards 是 NLP 最常用来传达进展的方式,但在 LLM 时代,它们越来越容易被误读。分数可能反映 benchmark……
什么是 Teacher Forcing?在训练 seq2seq 神经网络时,decoder 每次生成一个 token,逐步构建输出序列。在每一步…
Diffusion Transformers (DiTs) 为高保真视频世界模型提供动力,但由于顺序去噪和昂贵的时空计算,仍然计算成本高……
最近在潜在世界模型(例如 V-JEPA2)方面的进展显示出在从视频观测中预测未来世界状态的有希望的能力。然而,...
我们提出 TiCo,这是一种简单的后训练方法,用于使口语对话模型(SDMs)能够遵循时间约束指令并生成具有……
数以亿计的人依赖大型语言模型(LLMs)进行教育、工作,甚至医疗。然而,这些模型已知会复制并放大……
扩散语言模型(DLMs)相较于自回归(AR)模型提供了诸多吸引人的优势,例如全注意力并行解码和灵活生成……
对话在社会生活中无处不在,但对这一互动过程的实证研究一直受到工具不足以模块化且不……
自回归(AR)语言模型的慢速、顺序特性推动了并行解码方法的采用。然而,这些非 AR 模型往往牺…
虽然大型语言模型(LLMs)在海量数据上进行预训练,但它们在专业的、数据稀缺的领域中的知识覆盖仍然不完整,m...
在机器翻译领域,大型语言模型(LLMs)相较于传统的编码器-解码器系统通常表现不佳,因此其采用程度有限……
近期的可解释性工作常常将特征视为在不同上下文中共享的单一全局方向、dictionary atom 或 latent coordinate。我们认为 th...
Video agentic models 已经推动了具有挑战性的视频‑语言任务的发展。然而,大多数 agentic 方法仍然在 densely sampled 的基础上严重依赖 greedy parsing ……
最近关于 chain-of-thought (CoT) faithfulness 的研究报告了单一的整体数值(例如,DeepSeek‑R1 在 39% 的情况下会确认提示),暗示了 faithf...
在有争议的领域,instruction-tuned language models 必须在 user-alignment 压力与对 in-context evidence 的忠实性之间取得平衡。为了评估这一点……
大型语言模型(LLMs)已经在各种任务中展示了卓越的能力。然而,它们输出的真实性并不能得到保证,且…
Hyperspace Analogue to Language (HAL) 模型依赖全局词共现矩阵来构建分布式语义表示。虽然这些…
大型语言模型(LLMs)在许多推理基准上表现出色,但这些评估通常侧重于孤立的任务,这些任务与 r...
我们研究在对话中说话者和听者所表现的 verbal 和 nonverbal 语言特征如何有助于预测听者的状态……
封面图片:Understanding Seq2Seq Neural Networks – Part 5: Decoding the Context Vector https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,…
多模态大语言模型(MLLMs)在连接视觉和语言方面取得了令人印象深刻的进展,但它们仍然在空间理解方面存在困难……
虽然 Large Language Models 在广泛的 NLP 任务中取得了 state-of-the-art 的成果,但它们仍然容易受到系统性偏见的影响。其中,性别偏见 …