[Paper] 超越 Masked Diffusion Language Models 的规模化
Diffusion language models 是一种有前景的替代 autoregressive models 的方案,因为它们在更快生成方面具有潜力。在离散 diffusion approaches 中……
Diffusion language models 是一种有前景的替代 autoregressive models 的方案,因为它们在更快生成方面具有潜力。在离散 diffusion approaches 中……
本文提出了一种基于对大语言模型(LLMs)进行参数高效微调的文本风格迁移(TST)新方法。针对稀缺…
新闻推荐在在线新闻平台中发挥着关键作用,帮助用户发现相关内容。跨域新闻推荐进一步需要……
我们提出了一个面向领域的框架和基准,用于 contact centers 中的 tool-aware plan generation,在回答业务洞察查询时,我们的目标……
我们推出 “Testimole-conversational”,这是一个庞大的意大利语讨论板帖子集合。该语料库规模巨大,超过 300 亿词。
在过去几年里,状态跟踪任务,尤其是 permutation composition,已成为了解序列模型架构极限的试验平台……
大型语言模型(LLMs)取得了显著进展,参数高效微调(PEFT)已成为下游任务适配的关键技术……
Transformer 架构已成为现代深度学习的基础,但其核心的自注意力机制存在二次计算复杂度的……
印刷英文的熵率被广泛估计约为每字符一比特,这一基准是现代大型语言模型(LLMs)仅仅……
Video Language Models (VideoLMs) 使 AI 系统能够理解视频中的 temporal dynamics。为了适应最大 context window 限制,当前的方法……
大型语言模型(LLM)unlearning 旨在从已训练的模型中移除特定知识,但实际部署往往需要后训练量化……
语言识别(LID)是从网络数据构建高质量多语言数据集的关键步骤。现有的 LID 工具(如 OpenLID 或 GlotLID)……