[Paper] 词语破碎,性能受损:分词对LLMs性能的影响
Tokenization 是训练任何 Large Language Model (LLM) 的第一步,在此步骤中,文本会根据模型的固定 vocabulary 被拆分成一系列 token。
Tokenization 是训练任何 Large Language Model (LLM) 的第一步,在此步骤中,文本会根据模型的固定 vocabulary 被拆分成一系列 token。
基于执行的反馈(如单元测试)在通过测试时缩放(TTS)和强化学习(RL)开发编码代理时被广泛使用。T...
Speculative decoding 通过并行验证多个 draft token 加速 autoregressive language model 的推理。然而,verification stage 往往会出现 …
在本文中,我们探讨自动法规预测的问题,即对于给定的案件描述,预测一组相关法规的子集。Her...
Creative Fatigue – 2025年广告表现的沉默杀手 当 manual editors 每周只能输出 3 个视频时,top‑performance marketers 正在生成…
对 Transformers 如何使用自注意力将静态词嵌入转化为上下文表示进行直观、一步步的讲解,并通过简单的例子进行说明。
Masked Diffusion Models(MDMs)提供灵活的非自回归生成,但这种自由带来了一个挑战:最终输出质量对……高度敏感。
我们提出 C2LLM——Contrastive Code Large Language Models,这是一个包含 0.5B 和 7B 规模的代码嵌入模型系列。基于 Qwen-2.5-Coder 骨干,...
像抽象与推理语料库(ARC)和 ARC-AGI 这样的推理基准被广泛用于评估人工智能的进展,并且常常 ...
从噪声中分离信号是实验科学的核心。将成熟的统计方法有效地应用于 LLM evals 需要考虑……
我们提出了并行令牌预测(Parallel Token Prediction,PTP),这是一种用于语言模型中并行序列生成的通用框架。PTP 联合预测多个相互依赖的 t...
Engineering Manuals(EM)的用户发现阅读 EM 很困难,因为它们篇幅很长,格式密集,包含书面文档、逐步 …