포스트닥터 연구원에서 Data Scientist로: 두 개의 실제 프로젝트, 한 번의 전환
Source: Dev.to
테니스 경기 승자 예측
이 프로젝트는 호기심에서 시작되었습니다: 경기 시작 전에만 이용 가능한 정보만으로 프로 테니스 경기 결과를 예측할 수 있을까요?
접근 방식 및 변수
-
동적 데이터:
- 토너먼트 가중치에 따라 가변 K‑factor 를 적용한 표면별 ELO 시스템.
- 최근 10경기의 폼 윈도우.
- 미래 정보를 전혀 사용하지 않은 엄격한 시간 순서대로 계산된 헤드‑투‑헤드 기록.
- 각 토너먼트 내 피로도 메트릭.
-
모델:
- ATP 서킷 전용 독립 모델.
- 챌린저 서킷 전용 독립 모델 (변동성이 크고 젊은 인재가 많음).
결과 (훈련에 사용되지 않은 2025년 경기)
| 서킷 | 정확도 | 브리어 점수 |
|---|---|---|
| ATP | 64.2 % | 0.219 |
| Challenger | 63.5 % | 0.228 |
SHAP 해석
- ATP: 표면별 과거 ELO가 가장 중요한 예측 변수.
- 챌린저: 순위 차이와 연령 차이(신체적 에너지)가 기록이 불규칙할 때 더 큰 영향을 미침.
![Gráfico SHAP del modelo ATP]
![Gráfico SHAP del modelo Challenger]
🔗 GitHub 리포지토리:
고산지대 엑스트라 버진 올리브 오일의 화학 분석
이 프로젝트는 제가 하에네 대학교에서 박사후 연구원으로 진행한 MOUNTOLIVE 프로젝트의 일부입니다.
연구 질문
고도 800 m 이상에서 재배된 올리브 나무의 엑스트라 버진 올리브 오일은 화학적 프로파일이 변화합니까? 재배 방식(건조 재배 vs 관개)도 영향을 미칩니까?
데이터 및 파이프라인
- 화합물: 7개 군(지방산, 토코페롤, 페놀 화합물, 테르펜, 스테롤, 트리글리세리드, 색소)으로 구성된 100여 종.
- R 파이프라인:
- 정규성 검정.
- 파라메트릭 ANOVA와 Kruskal‑Wallis 중 자동 선택.
- ART‑ANOVA(비모수 다요인 ANOVA)로 두 요인 동시 분석.
- Python 파이프라인:
- 고도에 대한 연속 함수로 전체 화학 신호를 요약하는 복합 지수.
- Spearman 상관을 이용한 변수 선택.
- Z‑score 정규화로 비교 가능성 확보.
주요 발견
- 토코페롤과 페놀 화합물이 800 m 이상에서 유의하게 증가.
- 이러한 변동은 프리미엄 라벨링 및 향후 보호 원산지 지정(Protected Designation of Origin) 과학적 근거에 직접적인 영향을 미침.
🔗 GitHub 리포지토리:
회고 및 교훈
- 데이터 품질 및 분석 완전성이 선택한 알고리즘보다 더 중요합니다.
- 미래 정보를 무심코 누락하는 것을 피해야 합니다(예: 필터링된 데이터로 70 % 정확도 달성).
- 도메인 지식은 피처 선택과 결과 해석을 크게 향상시킵니다.
- 향후 개선점:
- 모델링 전에 정식 탐색적 분석 추가.
- 재현성을 위한 노트북 문서화.
- 메트릭을 맥락화하기 위한 명시적 베이스라인 모델 포함.
이 프로젝트들은 Evolve Academy Talent Day를 위해 준비한 포트폴리오의 일부이며, 데이터 사이언스·AI 석사 과정의 일환입니다. 접근 방식에 관심이 있거나 피드백이 있다면 언제든지 알려 주세요.
👉