第36天提升我的Data Science技能

发布: 1个月前 (2025年12月30日 GMT+8 04:05)

4 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Day 36 of improving my Data Science skills

如果你长期与数据打交道，你会不再渴求更花哨的模型，而是渴求更简单的东西——信心。

这就是我今天学习的主线。

数据可视化

在数据可视化中，我不仅仅是在绘制图表；我在学习如果不小心，视觉效果多么容易误导人。

直方图让我明白，分布可以根据箱宽的不同而隐藏或夸大模式。

Histogram

箱线图迫使我面对变异性、离群值和离散程度——而不仅仅是均值。

误差线让我承认不确定性，而不是把它隐藏起来。与其假装数值是精确的，我更愿意展示它在实际情况下可能的波动范围。这个小小的视觉选择会产生巨大差异，因为决策不是基于完美的数字，而是基于区间。

Error bar

随后是导入数据，这往往是许多数据问题悄然产生的阶段。我使用 pandas 读取 SAS 和 Stata 文件，这让我再次体会到一个不太舒服的事实：可靠的分析并不是从模型或图表开始的，而是从尊重数据最初的结构开始的。

会读取 SAS 和 Stata 文件意味着：

这类安静的技能正是“使用数据”和“理解数据”之间的区别所在。

Stata file

最后，我踏入了 Twitter API 与身份验证的世界。不是爬取，也不是下载文件，而是向实时系统请求数据，需遵守权限、速率限制和约束。

Twitter API

这让我清楚地认识到：真实世界的数据不会等我们。我们必须与之协商获取方式。

大多数数据失败并不是发生在“高级”阶段，而是发生在我们低估基础环节时：

如果你在构建产品、做决策，或招聘处理数据的人员，这才是真正的区分点。不是谁掌握的工具最多，而是谁懂得信任何时会破裂。

这正是我正在刻意培养的技能。

明天，我将继续深入：更多练习、更多质疑、更多不适。因为可信的洞见绝非偶然。

—SP