CSV 파일을 빠르게 sanity‑check 하는 CLI 도구를 만들었습니다 (tidypeek)
발행: (2026년 4월 23일 AM 02:45 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
개요
CSV 파일을 다루다 보면 다음과 같은 고민이 생깁니다:
- 누락된 값이 있나요?
- 중복된 행이 있나요?
- 실제 ID가 되는 열은 어느 열인가요?
- 데이터셋이 충분히 깨끗해서 바로 사용할 수 있나요?
같은 기본 검사를 반복하게 되어서 tidypeek이라는 가벼운 커맨드‑라인 도구를 만들었습니다. 이 도구는 CSV 파일을 빠르게 sanity‑check 해줍니다.
설치
pip install tidypeek
사용법
tidypeek yourfile.csv
도구는 데이터셋을 분석하고 다음을 보고합니다:
- 전체 행과 열 수
- 열 타입
- 누락된 값
- 중복 행
- 식별자 후보 열
- 중복된 ID
- 데이터에 대한 간단한 인사이트
특징
- 빠름 – 터미널에서 즉시 실행됩니다.
- 간단함 – 무거운 프로파일링 라이브러리가 필요 없습니다.
- 터미널 기반 – 깊이 있는 분석 전에 빠른 검토에 이상적입니다.
전형적인 출력 예시:
- “4개의 열에 높은 누락 비율이 있습니다”
- “‘name’ 열은 식별자처럼 보이지만 중복값이 포함되어 있습니다”
- “12개의 열에 낮은 고유성이 있습니다 — 그룹화에 유용합니다”
사용 사례
- 빠른 데이터셋 검사
- 데이터 정제 워크플로우
- 데이터 분석 학습
링크
- GitHub:
- PyPI:
피드백 및 기능 요청을 언제든 환영합니다!