大模型微调:SFT

发布: (2025年12月2日 GMT+8 14:06)
2 min read
原文: Dev.to

Source: Dev.to

SFT 的流程

  1. 预训练模型(GPT‑2)加载
  2. 准备(prompt → target)数据
  3. 用优化器(如 Adam、SGD 等)训练
  4. 最小化损失(交叉熵)
  5. 微调参数,让模型逐步“像训练数据一样说话”

SFT 相比 RLHF 更简单,但它是整个 LLM 微调的“地基”。在 SFT 训练阶段,你可以比较不同优化方法的训练动态。

1. SFT 的数学目标:最小化交叉熵损失

对一个回答序列 (y = (y_1, \dots, y_T)):

[ \text{Loss} = - \sum_{t=1}^{T} \log P_\theta\bigl(y_t \mid y_{ \text{(此处原文缺失)}} \bigr) ]

大模型在预训练阶段学习的是通用语言能力,但它不知道如何按照人类期望回答。微调(SFT)让它从“通才”变成“专才”。

如果面试官问 “LLM 微调到底是什么?” 你可以这样回答:

“大模型预训练学的是通用语言能力,但它不知道怎么按照人类期望回答。微调通过在特定任务数据上最小化交叉熵,让模型学会在给定提示下生成符合期望的答案。”


可选输出(根据需求自行选择)

  • 30 秒口语版解释
  • 面试官追问的 Q&A 版
  • 一图流流程图(便于复述)
Back to Blog

相关文章

阅读更多 »

切换账户

@blink_c5eb0afe3975https://dev.to/blink_c5eb0afe3975 正如大家所知,我正重新开始记录我的进展,我认为最好在一个不同的…

Strands 代理 + Agent Core AWS

入门指南:Amazon Bedrock AgentCore 目录 - 前置要求(requisitos‑previos) - 工具包安装(instalación‑del‑toolkit) - 创建…