我构建了一个 CLI 工具,快速 sanity-check CSV 文件 (tidypeek)
发布: (2026年4月23日 GMT+8 01:45)
2 分钟阅读
原文: Dev.to
Source: Dev.to
概览
处理 CSV 文件时常常令人沮丧。你经常会想:
- 是否存在缺失值?
- 是否有重复行?
- 哪一列才是真正的 ID?
- 数据集是否足够干净可以直接使用?
我发现自己一次又一次地进行相同的基础检查,于是创建了 tidypeek,这是一款轻量级的命令行工具,能够快速对任意 CSV 文件进行完整性检查。
安装
pip install tidypeek
使用方法
tidypeek yourfile.csv
该工具会分析数据集并报告:
- 总行数和列数
- 列类型
- 缺失值情况
- 重复行
- 可能的标识符列
- 重复的 ID
- 关于数据的简要洞察
特性
- 快速 – 可在终端瞬间运行。
- 简洁 – 不需要繁重的分析库。
- 终端‑基 – 适合在深入分析前进行快速检查。
典型输出示例:
- “4 列缺失值较多”
- “列 ‘name’ 看起来像是标识符,但包含重复值”
- “12 列唯一性较低 —— 可用于分组”
使用场景
- 快速数据集检查
- 数据清洗工作流
- 学习数据分析
链接
- GitHub:
- PyPI:
欢迎提供反馈和功能需求!