[论文] FineInstructions:将合成指令扩展到预训练规模
发布: (2026年1月30日 GMT+8 02:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.22146v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
概览
本文介绍了 FineInstructions,一个大规模合成数据集,它将用于语言模型预训练的原始文本转化为数十亿条 “指令 → 回答” 对。通过仅在这些合成指令上从头训练模型,作者展示了相较于传统的 “下一个词” 预训练再加上少量指令微调的方式,能够获得更好的下游性能。简而言之,他们演示了一种方法,将驱动大型语言模型(LLMs)的海量非结构化数据直接用于开发者今天关注的交互式使用场景。
关键贡献
- Synthetic instruction pipeline:一种可扩展的方法,从真实用户查询生成约 1800 万条指令模板,并将其匹配到现有预训练语料库中的人工编写源文档。
- FineInstructions dataset:在“预训练规模”(数十亿标记)下创建的数十亿高质量指令‑答案对。
- Instruction‑only pre‑training:实证表明,仅使用合成指令从头训练语言模型,在标准响应质量基准上优于经典的下一个标记预训练和其他合成数据技巧。
- Open‑source release:数据集和代码已在 Hugging Face 上公开,便于可重复性和社区扩展。
Methodology
- Collect instruction templates – 作者挖掘了数百万真实用户编写的提示(例如搜索查询、Stack‑Overflow 问题),并将其提炼为可复用的模板(例如 “用通俗的语言解释 X”)。
- Document matching – 为每个模板配对一段来自大规模非结构化语料库的相关段落,这些语料库最初用于下一词预测的预训练(如 Wikipedia、Common Crawl 等)。
- Answer generation – 将匹配的段落转化为满足指令的简洁答案,使用确定性启发式方法并最小化模型帮助,以保持过程完全合成。
- Dataset assembly – 将得到的(instruction, answer)对串联成单一训练流,形成一个数十亿标记的语料库,该语料库与下游的用户提示响应任务 in‑distribution。
- Controlled experiments – 对不同规模的模型在三种训练方案上逐标记进行训练:(a) 经典的下一词预训练,(b) 现有的合成预训练方法,和 (c) 仅使用 FineInstructions 的预训练。性能在标准指令遵循基准上进行评估(例如 AlpacaEval、MT‑Bench)。
结果与发现
- 更高的基准分数 – 在所有模型规模上,仅使用 FineInstructions 进行预训练相较于传统的预训练 + 指令微调,在自由形式响应质量指标上实现了 2–5 % 的绝对提升。
- 更快的收敛 – 模型在 ≈30 % 更少的训练步数 内达到可比的性能,这表明以指令为中心的数据为下游任务提供了更强的学习信号。
- 对领域转移的鲁棒性 – 即使在未被模板明确覆盖的任务上(例如代码生成)进行评估,指令预训练模型的表现也与基线持平或更佳,表明具备良好的泛化能力。
- 效率权衡 – 合成流水线会带来适度的预处理开销,但省去了单独昂贵的指令微调数据集的需求。
实际影响
- 简化的训练流水线 – 团队可以跳过两阶段的“预训练 → 微调”工作流,直接在指令数据上训练单一模型,从而降低工程复杂度。
- 成本效益的扩展 – 由于合成数据来源于现有语料库,您可以生成任意规模的指令数据集,而无需支付人工标注费用,这使得预算有限的初创公司和研究实验室也能实现。
- 更好的开箱即用助手 – 在 FineInstructions 上训练的模型已经对用户提示进行对齐,因此它们需要的后期对齐(例如 RLHF)更少,就能成为有用的聊天助手。
- 自定义领域扩展 – 模板匹配方法可以适用于专有文档集合(例如内部知识库),使公司能够在无需人工标注的情况下创建特定领域的指令数据集。
限制与未来工作
- 模板覆盖 – 虽然 18 M 模板数量庞大,但仍可能遗漏小众指令风格或高度专业化的领域,从而限制在特定任务上的表现。
- 合成答案质量 – 答案生成步骤依赖启发式方法;偶尔的噪声或事实错误可能会传播到训练数据中。
- 评估范围 – 所使用的基准侧重于自由形式响应质量;在投入生产之前,需要更严格的安全性、偏见和事实性评估。
- 未来方向 – 作者建议扩大模板多样性,加入多模态来源(例如代码片段、表格),并探索将合成与少量高质量人工编写指令相结合的混合流水线。
作者
- Ajay Patel
- Colin Raffel
- Chris Callison-Burch
论文信息
- arXiv ID: 2601.22146v1
- 分类: cs.CL, cs.LG
- 发表时间: 2026年1月29日
- PDF: 下载 PDF