Kaggle Google 5일 집중 ML 스프린트를 통한 나의 여정
Source: Dev.to
이 글은 Google AI Agents Writing Challenge: Learning Reflections 또는 Capstone Showcase에 대한 제출물입니다
나의 학습 여정 / 프로젝트 개요
지난 일주일 동안 Kaggle × Google 5‑일 집중 프로그램을 마쳤습니다 — 빠른 속도의 실습 스프린트를 통해 파이썬을 활용한 데이터 사이언스, 머신러닝 기초, 그리고 Kaggle‑스타일 워크플로우를 체험했습니다. 아래에서는 강의 전체 구조, 매일의 경험, 만든 프로젝트, 그리고 습득한 기술들을 공유합니다. 머신러닝을 처음 시작하거나 Kaggle을 시도해보고 싶다면 이 글이 도움이 될 수 있습니다.
핵심 개념 / 기술 심층 탐구
- 파이썬 기본 (리스트, 딕셔너리, 반복문, 함수)
- Pandas를 이용한 데이터 정제 및 탐색적 데이터 분석(EDA)
- Scikit‑Learn을 활용한 베이스라인 머신러닝 모델 (선형 회귀, 의사결정 트리, 랜덤 포레스트)
- 피처 엔지니어링, 인코딩, 스케일링, 하이퍼파라미터 튜닝
- 엔드‑투‑엔드 ML 파이프라인 구축 및 Kaggle 제출 워크플로우
회고 및 교훈
- Kaggle Notebooks는 초보자에게 친숙합니다; 실시간 코드 실행으로 실험이 간편합니다.
- 깨끗하고 충분히 탐색된 데이터가 좋은 ML 결과의 기반이 됩니다.
- 베이스라인 모델은 최소한의 튜닝만으로도 놀라울 정도로 괜찮은 성능을 보여줄 수 있습니다.
- 피처 엔지니어링과 적절한 검증은 복잡한 모델로 교체하는 것보다 성능 향상에 더 큰 영향을 미칩니다.
- 5일 만에 제로에서 완전한 제출까지 도달하는 것은 가능하며, 큰 동기부여가 됩니다 — 이론을 실질적인 결과물로 바꿔줍니다.
강의 구성 및 나의 일일 경험
1일차 — 시작하기: 파이썬 기초 + Kaggle 환경
- Kaggle 환경 소개: Notebooks, 데이터셋, 대회.
- 파이썬 기본 복습 — 리스트, 딕셔너리, 반복문, 조건문, 함수.
- 첫 실습 과제: Pandas로 데이터셋을 로드하고 기본 탐색 수행 (
head,shape,info).
교훈: Kaggle Notebooks는 초보자에게 친숙하고, 코드를 실시간으로 실행하면서 실험하기가 매우 간편합니다.
2일차 — 데이터 정제 및 탐색적 데이터 분석 (EDA)
- 데이터 정제 학습: 결측값 처리, 중복 제거, 이상치 필터링.
- Pandas를 활용한 탐색:
.describe(), 그룹화, 필터링, 요약 통계. - 초기 시각화를 통해 데이터 분포와 변수 간 관계 파악.
교훈: 깨끗하고 충분히 탐색된 데이터에 투자하는 시간은 매우 중요합니다 — 좋은 ML 결과의 토대가 됩니다.
3일차 — 첫 머신러닝 모델 (베이스라인)
- ML 워크플로우 이해: 데이터를 학습용과 테스트용으로 분할, 모델 학습, 성능 평가.
- Scikit‑Learn을 이용해 베이스라인 모델 구축:
- 선형 회귀 (회귀 문제용)
- 의사결정 트리
- 랜덤 포레스트
- 실제 데이터셋을 활용한 미니 대회/예측 과제 수행.
교훈: 최소한의 튜닝만으로도 베이스라인 모델은 실제 데이터에서 놀라울 정도로 괜찮은 결과를 낼 수 있습니다.
4일차 — 모델 향상: 피처 엔지니어링 & 하이퍼파라미터 튜닝
- 피처 엔지니어링 실습: 새로운 피처 생성, 범주형 변수 인코딩, 필요 시 스케일링.
- 하이퍼파라미터 튜닝 및 교차 검증 전략 적용으로 모델 성능 향상.
- 모델 해석의 중요성과 과적합 방지에 대해 학습.
교훈: 더 복잡한 모델을 선택하기보다, 더 똑똑한 피처와 더 나은 검증이 성능을 크게 끌어올리는 경우가 많습니다.
5일차 — 최종 프로젝트: 엔드‑투‑엔드 파이프라인 + 제출
- 완전한 ML 파이프라인 구축: 데이터 로드 → 정제 → 탐색 → 피처 엔지니어링 → 모델 학습 → 평가 → 예측.
submission.csv파일을 생성하고 실제 Kaggle 대회에 제출.- 리더보드에서 모델 점수와 순위를 확인 — 첫 “실제” ML 제출 경험.
교훈: 5일 만에 제로에서 완전한 제출까지 도달하는 것이 가능하며, 이는 큰 동기부여가 됩니다. 이론을 실제 결과물로 전환시켜 줍니다.