大模型微调:SFT
发布: (2025年12月2日 GMT+8 14:06)
2 min read
原文: Dev.to
Source: Dev.to
SFT 的流程
- 预训练模型(GPT‑2)加载
- 准备(prompt → target)数据
- 用优化器(如 Adam、SGD 等)训练
- 最小化损失(交叉熵)
- 微调参数,让模型逐步“像训练数据一样说话”
SFT 相比 RLHF 更简单,但它是整个 LLM 微调的“地基”。在 SFT 训练阶段,你可以比较不同优化方法的训练动态。
1. SFT 的数学目标:最小化交叉熵损失
对一个回答序列 (y = (y_1, \dots, y_T)):
[ \text{Loss} = - \sum_{t=1}^{T} \log P_\theta\bigl(y_t \mid y_{ \text{(此处原文缺失)}} \bigr) ]
大模型在预训练阶段学习的是通用语言能力,但它不知道如何按照人类期望回答。微调(SFT)让它从“通才”变成“专才”。
如果面试官问 “LLM 微调到底是什么?” 你可以这样回答:
“大模型预训练学的是通用语言能力,但它不知道怎么按照人类期望回答。微调通过在特定任务数据上最小化交叉熵,让模型学会在给定提示下生成符合期望的答案。”
可选输出(根据需求自行选择)
- 30 秒口语版解释
- 面试官追问的 Q&A 版
- 一图流流程图(便于复述)