第36天提升我的Data Science技能

发布: (2025年12月30日 GMT+8 04:05)
4 min read
原文: Dev.to

Source: Dev.to

Cover image for Day 36 of improving my Data Science skills

如果你长期与数据打交道,你会不再渴求更花哨的模型,而是渴求更简单的东西——信心。

  • 对所见即真实的信心。
  • 对所报告内容在质疑下仍能站得住脚的信心。

这就是我今天学习的主线。

数据可视化

在数据可视化中,我不仅仅是在绘制图表;我在学习如果不小心,视觉效果多么容易误导人。

直方图

直方图让我明白,分布可以根据箱宽的不同而隐藏或夸大模式。

Histogram

箱线图

箱线图迫使我面对变异性、离群值和离散程度——而不仅仅是均值。

误差线

误差线让我承认不确定性,而不是把它隐藏起来。与其假装数值是精确的,我更愿意展示它在实际情况下可能的波动范围。这个小小的视觉选择会产生巨大差异,因为决策不是基于完美的数字,而是基于区间。

Error bar

导入数据

随后是导入数据,这往往是许多数据问题悄然产生的阶段。我使用 pandas 读取 SAS 和 Stata 文件,这让我再次体会到一个不太舒服的事实:可靠的分析并不是从模型或图表开始的,而是从尊重数据最初的结构开始的。

会读取 SAS 和 Stata 文件意味着:

  • 你可以保留含义,而不是去猜测。
  • 你可以提前捕捉假设。
  • 你不太可能在被悄悄修改的数据上构建洞见。

这类安静的技能正是“使用数据”和“理解数据”之间的区别所在。

Stata file

Twitter API

最后,我踏入了 Twitter API 与身份验证的世界。不是爬取,也不是下载文件,而是向实时系统请求数据,需遵守权限、速率限制和约束。

Twitter API

这让我清楚地认识到:真实世界的数据不会等我们。我们必须与之协商获取方式。

关键洞见

大多数数据失败并不是发生在“高级”阶段,而是发生在我们低估基础环节时:

  • 误导性的直方图。
  • 被忽视的误差线。
  • 从未质疑的导入数据集。
  • 我们以为完整的 API 响应。

如果你在构建产品、做决策,或招聘处理数据的人员,这才是真正的区分点。不是谁掌握的工具最多,而是谁懂得信任何时会破裂。

这正是我正在刻意培养的技能。

明天,我将继续深入:更多练习、更多质疑、更多不适。因为可信的洞见绝非偶然。

—SP

Back to Blog

相关文章

阅读更多 »