我的论文意外让我成为数据科学家

发布: 1个月前 (2025年12月27日 GMT+8 02:38)

3 分钟阅读

原文: Dev.to

Source: Dev.to

序章

于是，经过几个月的拖延，我终于开始写我的硕士论文。你们懂的。反正，我快要完成经济学学位了，需要找个题目。

我选了一个实际上还挺感兴趣的方向：扫描并分析 IT 行业的招聘信息。计划是比较欧盟、美国和印度——雇主在找什么技能，各地区有什么差异，类似的东西。

于是我开始从 Glassdoor 抓取数据。听起来很简单，对吧？接下来才是有趣的部分——真正分析这些数据。

我本来打算用 Stata 或者学校教的其他分析软件。处理数据不就是这么做吗？把数据导入 Stata，跑几个回归，完事。

可是……我手里根本没有数字，只有文本。职位描述，成千上万条。而 Stata 对文本的支持并不好。

所以我必须先用 Python 之类的工具处理这些文本，才能考虑后面的分析。那时我就想——好吧，干脆全部用 Python 来搞定。lol。

顺便说一下，我以前从未写过 Python 代码。应该不会太糟，对吧？

结果，事情真的变得有趣了。

事实证明，这个方法论要比我预想的高级且复杂得多。我们在谈论 NLP、LLM 流水线、结构化数据抽取——整个过程。这已经不再是“导入数据，跑分析”了，而是真正的工程（我觉得，别怪我——我来自 React）。我正在解决的问题似乎真的在帮助我更清晰地思考。一路上做出的决定在塑造论文，我很喜欢这种感觉。

我现在是第 3 天。我的代码库大约有 5,800 行 Python——仅指 Python 文件，不包括配置文件或存在危机日志。

我本来是来写经济学论文的。我想我可能会以…完全不同的身份离开：Python 数据分析师（或者他们怎么叫的）。说实话？我已经有点上瘾了。

在接下来的帖子里，我会深入探讨在构建这个项目时遇到的有趣问题。如果你想一起跟进，记得点关注！