Machine learning - 전체 강좌

발행: 1개월 전 (2026년 1월 4일 오후 06:36 GMT+9)

6 분 소요

원문: Dev.to

Source: Dev.to

머신러닝 — 블로그 시리즈 목차

PART 0: Before ML (Mindset & Big Picture)

머신러닝이란? (버즈워드 없이)
ML vs AI vs DL vs 통계학
왜 실제 환경에서 ML 모델이 실패하는가
ML 라이프사이클: 데이터 → 모델 → 배포 → 성능 저하
절대 머신러닝을 사용하면 안 되는 경우

PART 1: Mathematical Foundations (Intuition First)

(초반에 무거운 증명은 배제 — 기하학 + 시각화)
Linear Algebra for ML
- 벡터: 점, 방향, 그리고 피처
- 내적 = 유사도 (코사인이 작동하는 이유)
- 행렬 곱셈을 변환으로 보기
- 고유벡터 = “안정적인 방향”
- 고차원 공간이 이상한 이유
Probability & Statistics
- 확률 변수 = 불확실성 컨테이너
- 기대값 = 장기 행동
- 분산, 편향, 노이즈 (실제 의미)
- 수식 없이 베이즈 정리
- 최대우도 vs MAP
Optimization Basics
- 손실 함수: 후회를 측정
- 기하학적으로 바라본 경사하강법
- 지역 최소점, 안장점, 평탄 영역
- 학습률 = 물리학에서의 스텝 크기
- 볼록 vs 비볼록 문제

PART 2: Classical Machine Learning (Core)

지도 학습
스크래치부터 구현하는 선형 회귀
과적합 vs 과소적합 (편향‑분산 트레이드오프)
정규화: L1, L2, Elastic Net
확률 모델인 로지스틱 회귀
의사결정 트리: 혼돈을 질서로 나누기
랜덤 포레스트: 군중의 지혜
직관적인 Gradient Boosting
간단히 설명하는 XGBoost
Model Evaluation
- Train/Validation/Test 분할에 대한 오해
- 정확도는 거짓 (정밀도, 재현율, F1)
- ROC vs PR 곡선
- 올바른 교차 검증
- 데이터 누수 끔찍한 사례

PART 3: Unsupervised Learning

클러스터링: 구조 발견
K‑Means의 기하학적 직관
계층적 클러스터링
DBSCAN과 밀도 기반 사고법
차원 축소 vs 피처 선택
PCA = 분산 최대화
PCA가 편향을 증폭시킬 때 (공정성 관점)

PART 4: Feature Engineering (Underrated Superpower)

모델보다 피처가 더 중요한 이유
범주형 변수 인코딩
스케일링 및 정규화에 대한 오해
피처 상호작용
시간 기반 피처
피처 누수 패턴
도메인 기반 피처 설계

PART 5: Neural Networks (Deep Learning)

Basics

퍼셉트론: 뉴런 신화
선형 모델이 실패하는 이유
활성화 함수의 기하학적 해석
시각적으로 설명하는 역전파
소실 및 폭발하는 그래디언트
Architectures
- 완전 연결 네트워크
- CNN: 지역 연결 직관
- 풀링: 정보 압축
- RNN과 시퀀스 메모리
- LSTM & GRU 해부
- 고수준에서 바라본 Transformers

PART 6: Training Deep Models

초기화가 생각보다 중요함
배치 vs 미니‑배치 vs 확률적 GD
옵티마이저: SGD, Adam, RMSProp
딥러닝 정규화
- 드롭아웃 = 앙상블 기법
- BatchNorm 시각화
조기 종료 직관

PART 7: Model Interpretability & Fairness

블랙‑박스 vs 유리‑박스 모델
피처 중요도에 대한 오해
SHAP와 LIME 직관적으로 이해하기
ML에서 공정성: 의미가 뭘까?
데이터 편향 vs 모델 편향
Fair PCA와 표현 학습
트레이드‑오프: 정확도 vs 공정성

PART 8: ML Systems & Production

학습 파이프라인 vs 추론 파이프라인
오프라인 학습 vs 온라인 학습
모델 버전 관리
데이터 드리프트 vs 개념 드리프트
프로덕션에서 ML 모니터링
재학습 전략
ML 기술 부채

PART 9: Applied Machine Learning

추천 시스템을 위한 ML
검색 엔진에서의 ML
사기 탐지를 위한 ML
의료 분야 ML (위험 및 윤리)
금융 분야 ML
스포츠 분석 ML
NLP 작업을 위한 ML
컴퓨터 비전을 위한 ML

PART 10: Research Thinking in ML

ML 연구 논문 읽는 법
실증 논문 vs 이론 논문
재현성 문제
… (계속)

Source:

PART 10: 연구 실무

ML에서의 이슈
아무도 존중하지 않는 베이스라인
절제 연구 설명
좋은 ML 논문 쓰기
일반적인 연구 실수

PART 11: 고급 및 최신 주제

자체 지도 학습
대조 학습
표현 학습
메타 학습
온라인 학습
인과 ML
강화 학습 직관
LLM 및 기반 모델
ML 정렬 및 안전

PART 12: ML 경력 및 학습 경로

물에 빠지지 않고 ML 배우기
수학 vs 직관 — 무엇을 우선시할까?
ML 인터뷰 vs 실제 ML
영향력 있는 ML 프로젝트 구축
엔지니어에서 ML 연구자로
연구 문제 선택 방법

관련 글

인공지능: 전체 강좌(AI001)

인공지능의 기초 PART 1 - 인공지능이란 무엇인가? link https://dev.to/jayaprasanna_roddam/course-ai001-what-is-artificial-intelli...

Data의 미래를 이끄는 비주류 직업

당신이 탐색해야 할 비전통적인 경력 경로들 ‘Off-Beat Careers That Are the Future Of Data’ 게시물이 처음으로 Towards Data Science에 게재되었습니다....

Advent of Code가 데이터 과학에 대해 나에게 가르쳐 준 것

프로그래밍 챌린지를 통해 발견한 다섯 가지 핵심 교훈과 그것이 데이터 사이언스에 어떻게 적용되는지 포스트: Advent of Code가 데이터 사이언스에 대해 가르쳐 준 것

머신러닝 어드벤트 캘린더 보너스 1: Excel에서 AUC

AUC는 선택된 임계값과 무관하게 모델이 양성을 음성보다 얼마나 잘 순위 매기는지를 측정합니다. The post The Machine Learning “Advent Calendar” Bonus 1: AUC...