第2天 — 线性回归:直线如何从数据中学习
Source: Dev.to
Riya 在上学,考试快到了。
她的姐姐注意到了一件有趣的事:
| 学习时间 | 分数 |
|---|---|
| 1 小时 | 20 |
| 2 小时 | 40 |
| 3 小时 | 60 |
姐姐笑着说:
“哎呀,学习越多,分数就越高——真是太可预测了!”
在不自觉的情况下,Riya 的姐姐刚刚做了线性回归。
那么……线性回归到底是什么?
忘掉大名吧。
线性回归的简单含义是: 找到输入和输出之间的直线关系。
通俗地说:
- 输入增加
- 输出增加(或减少)
以一种 稳定、可预测的方式。这种稳定的行为是关键。
为什么是“直线”?
因为生活有时很简单。
- 更多工作经验 → 更高薪水
- 更大的房子 → 更高的价格
- 使用更多的单位 → 更高的电费
你的大脑已经期待一个直线模式。线性回归只是使用数据绘制该模式。
模型到底在做什么?
想象一块板上有许多点 📍——每个点代表一个真实的例子。
线性回归的任务是:
“让我画一条直线,使它尽可能接近所有这些点。”

它并没有经过每一个点,虽然不完美,但它是 整体上最好的直线。这就是模型。
简单线性回归 vs 多元线性回归
简单线性回归
一个输入 → 一个输出
示例: 学习时间 → 成绩
多元线性回归
多个输入 → 一个输出
示例: 房屋面积、房间数量、位置 → 房价
相同的思路,只是 信息更多。

系数 — 真正的力量
想象一下,一位人力资源经理根据两个因素来决定你的薪资:经验和技能。
Salary = (Experience × 5000) + (Skills × 3000) + Base Pay
数字 5000 和 3000 被称为系数。它们表示每个因素的贡献大小:
- 系数越大 → 影响越大
- 系数越小 → 影响越小
就像烹饪一样:盐对味道的影响很大,辣椒的影响稍小。线性回归不仅预测一个数值——它还能解释为什么这个数值是合理的。

截距 — 起点
如果某人拥有:
- 0 经验
- 0 技能
薪水并不是零,因为通常会有 基本工资。这个基本值就是 截距。
截距是线条的起点。
为什么线性回归无处不在
- 易于理解
- 训练快速
- 易于向管理层解释
- 在面试中非常受欢迎
面试真相:他们更关注理解行为而不是记忆公式。
当这条直线变成坏主意时
如果数据出现突发跳跃、随机波动或明显的曲线(例如工资激增、价格波动剧烈),强行使用直线就像“使用尺子来测量圆”。效果不会好。我们稍后会探讨其他替代方案。
Tiny Brain Exercise 🧠
想想你的月度手机账单:
- 使用更多数据 → 账单更高
- 使用更少数据 → 账单更低
你已经预期会有一条直线关系——这种直觉是线性回归的基础。
3件必须记住的要点
- 线性回归拟合一条直线。
- 系数显示每个输入的重要性。
- 截距是起始值。
接下来会发生什么 👀
既然我们已经得到了一条直线,最大的疑问是:
我们如何判断这条直线是好是坏?
这时 误差和损失函数 就派上用场了。
👉 第 3 天 — 误差与损失函数:衡量模型错误程度