[Paper] 对离线数据选择与在线自我精炼生成的统一理解——后训练 LLM
发布: (2025年11月26日 GMT+8 12:48)
2 min read
原文: arXiv
Source: arXiv
摘要
离线数据选择和在线自我精炼生成(提升数据质量)是将大型语言模型(LLM)适配到特定下游任务的关键步骤。我们从优化的视角来解决离线数据选择和在线自我精炼生成问题。具体而言,使用双层数据选择对离线数据进行选择,以验证数据集为依据;我们将在线自我精炼生成视为模型适配步骤,即在当前响应上训练的模型中挑选最符合验证数据的模型。我们的框架通过为每个问题和响应分配学习得到的数据权重(显式或隐式),提供了对离线数据选择和自我精炼生成的统一理解。首次在理论上证明了双层数据选择框架的有效性,并展示了其相较于未过滤直接混合基线的性能提升。通过将离线数据与验证加权的在线生成相结合,我们的方法提升了微调性能。质量提升和安全感知的 LLM 微调实验验证了其有效性。
主题
- 机器学习 (cs.LG)
- 计算与语言 (cs.CL)
- 优化与控制 (math.OC)
引用
arXiv: 2511.21056 (cs.LG)
DOI: https://doi.org/10.48550/arXiv.2511.21056
提交历史
- v1, 2025年11月26日 星期三 04:48:33 UTC (5,430 KB) – 提交者:Quan Xiao