使用线性回归预测员工薪资
发布: (2026年1月15日 GMT+8 16:40)
3 min read
原文: Dev.to
Source: Dev.to
项目概述
在本项目中,我使用线性回归模型根据员工的 工作年限 预测其薪资。
线性回归是一种统计方法,用于建模因变量与自变量之间的关系。
- X(自变量) – 工作年限
- Y(因变量) – 薪资
使用的库
本项目使用了以下 Python 库:
- pandas – 处理数据框
- seaborn 与 matplotlib – 可视化
- scikit‑learn (sklearn) – 数据预处理、模型训练与评估
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.feature_selection import f_regression
%matplotlib inline
数据准备
读取包含数据集的 Excel 文件。

定义 X 和 y 变量。
X 以 DataFrame(二维数组)的形式存储,因为 scikit‑learn 需要这种形状。
X = df[['YearsExperience']] # independent variable (must be 2‑D)
y = df['Salary'] # dependent variable
数据集划分
将数据划分为训练集和测试集(测试集占 25%)。
# Train‑test split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.25, random_state=42
)
模型验证
为了验证工作年限与薪资之间确实存在关系,使用 F‑回归 进行检验。
- F 值: 622.5 – 衡量自变量对因变量的解释程度。
- p 值: 0.0 – 表示统计显著性。
(如有需要,请将占位符 URL 替换为正确的图片链接。)
结论 – 线性回归能够有效捕捉员工工作年限与薪资之间的关系,取得了高 R² 分数,并提供了可解释的模型(截距和斜率),可用于未来的薪资预测。

结论
本项目展示了线性回归可以有效地对工作年限与薪资之间的关系进行建模。
感谢阅读! ❤️