Linear Regression을 이용한 직원 급여 예측

발행: (2026년 1월 15일 오후 05:40 GMT+9)
3 min read
원문: Dev.to

Source: Dev.to

프로젝트 개요

이 프로젝트에서는 경력 연수를 기반으로 직원의 급여를 선형 회귀 모델로 예측합니다.
선형 회귀는 종속 변수와 독립 변수 사이의 관계를 모델링하는 통계적 방법입니다.

  • X (독립 변수) – 경력 연수
  • Y (종속 변수) – 급여

사용된 라이브러리

이 프로젝트에서 사용된 파이썬 라이브러리는 다음과 같습니다:

  • pandas – 데이터프레임 처리
  • seabornmatplotlib – 시각화
  • scikit‑learn (sklearn) – 데이터 전처리, 모델 학습 및 평가
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.feature_selection import f_regression

%matplotlib inline

데이터 준비

데이터셋이 포함된 Excel 파일을 읽어옵니다.

Excel 데이터셋 – 처음 5행

Xy 변수를 정의합니다.
X는 scikit‑learn이 요구하는 형태이므로 DataFrame(2‑D 배열)로 저장합니다.

X = df[['YearsExperience']]   # 독립 변수 (2‑D이어야 함)
y = df['Salary']              # 종속 변수

데이터셋 분할

데이터를 훈련 세트와 테스트 세트(테스트 비율 25 %)로 나눕니다.

# Train‑test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

모델 검증

경력 연수와 급여 사이에 실제 관계가 존재하는지 확인하기 위해 F‑regression을 적용합니다.

  • F‑값: 622.5 – 독립 변수가 종속 변수를 얼마나 잘 설명하는지 측정합니다.
  • p‑값: 0.0 – 통계적으로 유의함을 나타냅니다.

(필요한 경우 자리표시자 URL을 올바른 이미지 링크로 교체하세요.)

결론 – 선형 회귀는 직원의 경력 연수와 급여 사이의 관계를 효과적으로 포착하며, 높은 R² 점수를 달성하고 해석 가능한 모델(절편과 기울기)을 제공하여 향후 급여 예측에 활용할 수 있습니다.

선형 회귀 결과

결론

이 프로젝트는 선형 회귀가 경력 연수와 급여 사이의 관계를 효과적으로 모델링할 수 있음을 보여줍니다.

읽어주셔서 감사합니다! ❤️

Back to Blog

관련 글

더 보기 »

소개: AI를 이용한 무작위성 분석

안녕하세요 여러분! 👋 저는 현재 NichebrAI라는 프로젝트를 진행 중이며, 여기서 머신러닝 모델을 실험해 복권의 과거 데이터를 분석하고 있습니다.