我构建了一个 CLI 工具,快速 sanity-check CSV 文件 (tidypeek)

发布: (2026年4月23日 GMT+8 01:45)
2 分钟阅读
原文: Dev.to

Source: Dev.to

概览

处理 CSV 文件时常常令人沮丧。你经常会想:

  • 是否存在缺失值?
  • 是否有重复行?
  • 哪一列才是真正的 ID?
  • 数据集是否足够干净可以直接使用?

我发现自己一次又一次地进行相同的基础检查,于是创建了 tidypeek,这是一款轻量级的命令行工具,能够快速对任意 CSV 文件进行完整性检查。

安装

pip install tidypeek

使用方法

tidypeek yourfile.csv

该工具会分析数据集并报告:

  • 总行数和列数
  • 列类型
  • 缺失值情况
  • 重复行
  • 可能的标识符列
  • 重复的 ID
  • 关于数据的简要洞察

特性

  • 快速 – 可在终端瞬间运行。
  • 简洁 – 不需要繁重的分析库。
  • 终端‑基 – 适合在深入分析前进行快速检查。

典型输出示例:

  • “4 列缺失值较多”
  • “列 ‘name’ 看起来像是标识符,但包含重复值”
  • “12 列唯一性较低 —— 可用于分组”

使用场景

  • 快速数据集检查
  • 数据清洗工作流
  • 学习数据分析

链接

  • GitHub:
  • PyPI:

欢迎提供反馈和功能需求!

0 浏览
Back to Blog

相关文章

阅读更多 »

GitHub CLI 现在收集伪匿名遥测

Telemetry GitHub CLI 会发送伪匿名遥测,以帮助我们改进产品。我们希望您了解发送的内容以及原因。我们收集遥测的原因是……