내 논문이 우연히 나를 데이터 사이언티스트로 만들었다
Source: Dev.to
Prologue
그래서 몇 달간 미루던 일을 끝내고 드디어 석사 논문을 시작했어요. 다들 알다시피 그렇죠. 어쨌든 저는 경제학 학위를 마무리하고 있었고 주제가 필요했어요.
저는 실제로 좀 흥미를 느꼈던 주제로 갔어요: IT 산업의 채용 공고를 스캔하고 분석하기. 계획은 EU vs 미국 vs 인도—고용주가 어떤 기술을 찾는지, 지역마다 어떤 차이가 있는지 등을 비교하는 것이었어요.
그래서 저는 Glassdoor에서 데이터를 스크래핑하기 시작했어요. 충분히 쉬운 일 아니겠어요? 그다음이 재미있는 부분—실제로 이 데이터를 분석하는 것이었죠.
보시다시피 저는 학교에서 배운 Stata 같은 분석 소프트웨어를 사용할 생각이었어요. 데이터가 있으면 뭐든지 Stata에 넣고 회귀분석을 돌리고 끝내는 거잖아요.
그런데… 저는 실제 숫자는 없고 텍스트만 있었어요. 채용 설명서였죠. 수천 개에 달했어요. 그리고 Stata는 텍스트와는 잘 맞지 않더라고요.
그래서 어쩔 수 없이 파이썬 같은 걸 써서 이 텍스트를 먼저 처리해야 했고, 그때 저는 “그럼 모두 파이썬으로 해보자”고 생각했어요. lol.
참고로 파이썬 코딩은 처음이었어요. 그렇게 나쁠 리 없잖아요?
그런데 실제로는 재미있어졌어요.
예상보다 방법론이 훨씬 더 고급이고 복잡하더라고요. NLP, LLM 파이프라인, 구조화된 데이터 추출—전부 다요. 이제는 “데이터를 가져와서 분석한다”는 수준이 아니라 진짜 엔지니어링(제 생각엔, 판단은 여러분에게 맡길게요—저는 React 쪽에서 왔거든요)이라 할 수 있죠. 그리고 제가 해결하고 있는 문제들은 실제로 제 사고를 더 명확하게 하는 데 도움이 되는 느낌이에요. 진행 중에 내리는 결정들이 논문을 형성하고, 그게 마음에 들어요.
지금은 3일 차에요. 제 코드베이스는 대략 5,800줄의 파이썬 코드—파이썬 파일만 포함하고, 설정 파일이나 존재론적 위기 로그는 제외했어요.
저는 여기서 경제학 논문을 쓰려고 왔어요. 이제는… 전혀 다른 무언가가 될지도 몰라요: 파이썬 데이터 분석가(또는 그들이 부르는 다른 명칭). 솔직히? 저는 이게 꽤 재밌어요.
다음 포스트에서는 이 프로젝트를 만들면서 해결하고 있는 흥미로운 내용들을 파고들 거예요. 함께하고 싶다면 팔로우를 눌러 주세요!