大模型微调：SFT

发布: 4天前 (2025年12月2日 GMT+8 14:06)

2 min read

原文: Dev.to

Source: Dev.to

SFT 的流程

预训练模型（GPT‑2）加载
准备（prompt → target）数据
用优化器（如 Adam、SGD 等）训练
最小化损失（交叉熵）
微调参数，让模型逐步“像训练数据一样说话”

SFT 相比 RLHF 更简单，但它是整个 LLM 微调的“地基”。在 SFT 训练阶段，你可以比较不同优化方法的训练动态。

1. SFT 的数学目标：最小化交叉熵损失

对一个回答序列 (y = (y_1, \dots, y_T))：

[ \text{Loss} = - \sum_{t=1}^{T} \log P_\theta\bigl(y_t \mid y_{ \text{（此处原文缺失）}} \bigr) ]

大模型在预训练阶段学习的是通用语言能力，但它不知道如何按照人类期望回答。微调（SFT）让它从“通才”变成“专才”。

如果面试官问 “LLM 微调到底是什么？” 你可以这样回答：

“大模型预训练学的是通用语言能力，但它不知道怎么按照人类期望回答。微调通过在特定任务数据上最小化交叉熵，让模型学会在给定提示下生成符合期望的答案。”

可选输出（根据需求自行选择）

30 秒口语版解释
面试官追问的 Q&A 版
一图流流程图（便于复述）

相关文章

阅读更多 »

在Alpedrete附近修理扎胎

介绍我们的车间已准备好快速安全地处理任何轮胎紧急情况，无论您在Alpedrete还是在Las Ro...

切换账户

@blink_c5eb0afe3975https://dev.to/blink_c5eb0afe3975 正如大家所知，我正重新开始记录我的进展，我认为最好在一个不同的…

在组织中使用 Excel 进行销售预测和收入预测

引言：强大的商业战略始于预测未来绩效的能力，而 Excel 仍是实现这一目标最可靠的工具之一。

Strands 代理 + Agent Core AWS

入门指南：Amazon Bedrock AgentCore 目录 - 前置要求（requisitos‑previos） - 工具包安装（instalación‑del‑toolkit） - 创建…