Linear Regression을 이용한 직원 급여 예측
Source: Dev.to
프로젝트 개요
이 프로젝트에서는 경력 연수를 기반으로 직원의 급여를 선형 회귀 모델로 예측합니다.
선형 회귀는 종속 변수와 독립 변수 사이의 관계를 모델링하는 통계적 방법입니다.
- X (독립 변수) – 경력 연수
- Y (종속 변수) – 급여
사용된 라이브러리
이 프로젝트에서 사용된 파이썬 라이브러리는 다음과 같습니다:
- pandas – 데이터프레임 처리
- seaborn 및 matplotlib – 시각화
- scikit‑learn (sklearn) – 데이터 전처리, 모델 학습 및 평가
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.feature_selection import f_regression
%matplotlib inline
데이터 준비
데이터셋이 포함된 Excel 파일을 읽어옵니다.

X와 y 변수를 정의합니다.
X는 scikit‑learn이 요구하는 형태이므로 DataFrame(2‑D 배열)로 저장합니다.
X = df[['YearsExperience']] # 독립 변수 (2‑D이어야 함)
y = df['Salary'] # 종속 변수
데이터셋 분할
데이터를 훈련 세트와 테스트 세트(테스트 비율 25 %)로 나눕니다.
# Train‑test split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.25, random_state=42
)
모델 검증
경력 연수와 급여 사이에 실제 관계가 존재하는지 확인하기 위해 F‑regression을 적용합니다.
- F‑값: 622.5 – 독립 변수가 종속 변수를 얼마나 잘 설명하는지 측정합니다.
- p‑값: 0.0 – 통계적으로 유의함을 나타냅니다.
(필요한 경우 자리표시자 URL을 올바른 이미지 링크로 교체하세요.)
결론 – 선형 회귀는 직원의 경력 연수와 급여 사이의 관계를 효과적으로 포착하며, 높은 R² 점수를 달성하고 해석 가능한 모델(절편과 기울기)을 제공하여 향후 급여 예측에 활용할 수 있습니다.

결론
이 프로젝트는 선형 회귀가 경력 연수와 급여 사이의 관계를 효과적으로 모델링할 수 있음을 보여줍니다.
읽어주셔서 감사합니다! ❤️