CSV 파일을 빠르게 sanity‑check 하는 CLI 도구를 만들었습니다 (tidypeek)

발행: (2026년 4월 23일 AM 02:45 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

개요

CSV 파일을 다루다 보면 다음과 같은 고민이 생깁니다:

  • 누락된 값이 있나요?
  • 중복된 행이 있나요?
  • 실제 ID가 되는 열은 어느 열인가요?
  • 데이터셋이 충분히 깨끗해서 바로 사용할 수 있나요?

같은 기본 검사를 반복하게 되어서 tidypeek이라는 가벼운 커맨드‑라인 도구를 만들었습니다. 이 도구는 CSV 파일을 빠르게 sanity‑check 해줍니다.

설치

pip install tidypeek

사용법

tidypeek yourfile.csv

도구는 데이터셋을 분석하고 다음을 보고합니다:

  • 전체 행과 열 수
  • 열 타입
  • 누락된 값
  • 중복 행
  • 식별자 후보 열
  • 중복된 ID
  • 데이터에 대한 간단한 인사이트

특징

  • 빠름 – 터미널에서 즉시 실행됩니다.
  • 간단함 – 무거운 프로파일링 라이브러리가 필요 없습니다.
  • 터미널 기반 – 깊이 있는 분석 전에 빠른 검토에 이상적입니다.

전형적인 출력 예시:

  • “4개의 열에 높은 누락 비율이 있습니다”
  • “‘name’ 열은 식별자처럼 보이지만 중복값이 포함되어 있습니다”
  • “12개의 열에 낮은 고유성이 있습니다 — 그룹화에 유용합니다”

사용 사례

  • 빠른 데이터셋 검사
  • 데이터 정제 워크플로우
  • 데이터 분석 학습

링크

  • GitHub:
  • PyPI:

피드백 및 기능 요청을 언제든 환영합니다!

0 조회
Back to Blog

관련 글

더 보기 »