[Paper] 快速解码扩散语言模型通过进度感知置信调度
Diffusion 大语言模型(dLLMs)提供了一种有前景的 autoregressive 模型替代方案,但其实际效用因生成缓慢、迭代……
Diffusion 大语言模型(dLLMs)提供了一种有前景的 autoregressive 模型替代方案,但其实际效用因生成缓慢、迭代……
Test-time policy optimization 使大语言模型(LLMs)能够通过利用自生成 rollouts 的反馈来适应 distribution shifts。然而,...
多数投票已被证明在封闭式问答中通过聚合并行推理轨迹而有效。然而,它并不直接适用于开放式……
在低资源语言中,hate speech 识别仍然是一个困难的问题,原因是数据集不足、正字法异质性以及语言多样性。
语音对话代理正趋向于 voice-native LLMs。本教程提炼了从级联式 ASR/NLU 到端到端、检索与 vision‑... 的路径。
近期在 general-purpose AI systems 与 attention-based transformers 方面的进展,为我们提供了一个潜在的窗口,以了解 neocortex 和 cerebellum,尽管它们的...
社交媒体上的辱骂性言论构成了一个持久且不断演变的挑战,这一挑战源于新俚语和旨在混淆视听的词汇的持续出现……
随着大语言模型规模的不断扩大,低精度数值格式(如 NVFP4)因其速度和内存优势而日益受到欢迎……
测试时伸缩(Test-time scaling,TTS)——在推理过程中动态分配计算资源——是提升大型语言模型(LLMs)推理能力的一个有前景的方向。
大型语言模型(LLMs)在隐藏的参数空间中编码事实知识,这些空间难以检查或控制。虽然稀疏自编码器(SAEs)……
我们介绍了 LLM CHESS,一个旨在探究大型语言模型在推理和遵循指令能力上的泛化性的评估框架(...)。
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……