데이터 사이언스 스킬을 향상시키는 36일 차

발행: (2025년 12월 30일 오전 05:05 GMT+9)
5 min read
원문: Dev.to

Source: Dev.to

Day 36 데이터 사이언스 스킬 향상 커버 이미지

데이터를 오래 다루다 보면, 더 화려한 모델을 원하던 욕구가 사라지고 더 단순한 것을 원하게 됩니다 – 신뢰.

  • 당신이 보는 것이 실제라는 신뢰.
  • 당신이 보고하는 것이 질문에 부딪혀도 무너지지 않을 것이라는 신뢰.

오늘 배운 내용 전체에 흐르고 있던 실마리였습니다.

Data Visualization

데이터 시각화에서는 단순히 차트를 그리는 것이 아니라, 부주의하면 시각화가 얼마나 쉽게 오해를 불러일으킬 수 있는지를 배웠습니다.

Histograms

히스토그램을 통해 구간 크기에 따라 분포가 패턴을 숨기거나 과장할 수 있다는 것을 배웠습니다.

Histogram

Box Plots

박스 플롯은 평균만 보는 것이 아니라 변동성, 이상치, 퍼짐을 직시하도록 강요했습니다.

Error Bars

오차 막대는 불확실성을 숨기지 않고 인정하도록 만들었습니다. 값이 정확하다고 가장하는 대신, 실제로 얼마나 변동할 수 있는지를 보여줍니다. 이 작은 시각적 선택이 큰 차이를 만들며, 의사결정은 완벽한 숫자가 아니라 범위 내에서 이루어지기 때문입니다.

Error bar

Importing Data

그 다음은 데이터를 가져오는 단계였습니다. 여기서 많은 데이터 문제가 조용히 발생합니다. pandas를 이용해 SAS와 Stata 파일을 다루면서, 신뢰할 수 있는 분석은 모델이나 차트에서 시작되지 않음을 다시 한 번 깨달았습니다. 데이터가 원래 어떻게 구조화되어 있었는지를 존중하는 것에서 시작됩니다.

SAS와 Stata 파일을 읽는 방법을 알면:

  • 의미를 추측하지 않고 그대로 보존할 수 있습니다.
  • 가정을 일찍 포착할 수 있습니다.
  • 조용히 변형된 데이터 위에 인사이트를 쌓을 가능성이 줄어듭니다.

이것이 바로 데이터를 “사용”하는 것과 데이터를 “이해”하는 것을 구분 짓는 조용한 스킬입니다.

Stata file

Twitter APIs

마지막으로 트위터 API와 인증에 발을 들였습니다. 스크래핑도, 파일 다운로드도 아니라, 권한, 호출 제한, 제약 조건을 갖춘 실시간 시스템에 데이터를 요청하는 것이었습니다.

Twitter API

한 가지가 명확해졌습니다: 현실 세계의 데이터는 우리를 기다려 주지 않습니다. 우리는 데이터에 접근하기 위해 협상해야 합니다.

Key Insight

대부분의 데이터 실패는 “고급” 단계에서 일어나지 않습니다. 기본을 과소평가할 때 발생합니다:

  • 오해를 일으키는 히스토그램.
  • 무시된 오차 막대.
  • 한 번도 질문하지 않은 가져온 데이터셋.
  • 완전하다고 가정한 API 응답.

제품을 만들든, 결정을 내리든, 데이터를 다루는 사람을 채용하든, 이것이 진짜 차별점입니다. 가장 많은 도구를 아는 사람이 아니라, 신뢰가 어디서 깨질 수 있는지를 아는 사람이 승리합니다.

이것이 제가 의도적으로 키우고 있는 스킬입니다.

그리고 내일은 더 깊이 파고들 것입니다: 더 많은 연습, 더 많은 질문, 더 많은 불편함. 왜냐하면 신뢰할 수 있는 인사이트는 우연히 생기는 것이 아니니까요.

—SP

Back to Blog

관련 글

더 보기 »