포스트닥터 연구원에서 Data Scientist로: 두 개의 실제 프로젝트, 한 번의 전환

발행: 2일 전 (2026년 5월 10일 AM 02:47 GMT+9)

5 분 소요

원문: Dev.to

Source: Dev.to

테니스 경기 승자 예측

이 프로젝트는 호기심에서 시작되었습니다: 경기 시작 전에만 이용 가능한 정보만으로 프로 테니스 경기 결과를 예측할 수 있을까요?

동적 데이터:
- 토너먼트 가중치에 따라 가변 K‑factor 를 적용한 표면별 ELO 시스템.
- 최근 10경기의 폼 윈도우.
- 미래 정보를 전혀 사용하지 않은 엄격한 시간 순서대로 계산된 헤드‑투‑헤드 기록.
- 각 토너먼트 내 피로도 메트릭.
모델:
- ATP 서킷 전용 독립 모델.
- 챌린저 서킷 전용 독립 모델 (변동성이 크고 젊은 인재가 많음).

서킷	정확도	브리어 점수
ATP	64.2 %	0.219
Challenger	63.5 %	0.228

![Gráfico SHAP del modelo ATP]
![Gráfico SHAP del modelo Challenger]

🔗 GitHub 리포지토리:

이 프로젝트는 제가 하에네 대학교에서 박사후 연구원으로 진행한 MOUNTOLIVE 프로젝트의 일부입니다.

고도 800 m 이상에서 재배된 올리브 나무의 엑스트라 버진 올리브 오일은 화학적 프로파일이 변화합니까? 재배 방식(건조 재배 vs 관개)도 영향을 미칩니까?

화합물: 7개 군(지방산, 토코페롤, 페놀 화합물, 테르펜, 스테롤, 트리글리세리드, 색소)으로 구성된 100여 종.
R 파이프라인:
- 정규성 검정.
- 파라메트릭 ANOVA와 Kruskal‑Wallis 중 자동 선택.
- ART‑ANOVA(비모수 다요인 ANOVA)로 두 요인 동시 분석.
Python 파이프라인:
- 고도에 대한 연속 함수로 전체 화학 신호를 요약하는 복합 지수.
- Spearman 상관을 이용한 변수 선택.
- Z‑score 정규화로 비교 가능성 확보.

토코페롤과 페놀 화합물이 800 m 이상에서 유의하게 증가.
이러한 변동은 프리미엄 라벨링 및 향후 보호 원산지 지정(Protected Designation of Origin) 과학적 근거에 직접적인 영향을 미침.

🔗 GitHub 리포지토리:

데이터 품질 및 분석 완전성이 선택한 알고리즘보다 더 중요합니다.
미래 정보를 무심코 누락하는 것을 피해야 합니다(예: 필터링된 데이터로 70 % 정확도 달성).
도메인 지식은 피처 선택과 결과 해석을 크게 향상시킵니다.
향후 개선점:
- 모델링 전에 정식 탐색적 분석 추가.
- 재현성을 위한 노트북 문서화.
- 메트릭을 맥락화하기 위한 명시적 베이스라인 모델 포함.

이 프로젝트들은 Evolve Academy Talent Day를 위해 준비한 포트폴리오의 일부이며, 데이터 사이언스·AI 석사 과정의 일환입니다. 접근 방식에 관심이 있거나 피드백이 있다면 언제든지 알려 주세요.

👉