我的论文意外让我成为数据科学家

发布: (2025年12月27日 GMT+8 02:38)
3 分钟阅读
原文: Dev.to

Source: Dev.to

序章

于是,经过几个月的拖延,我终于开始写我的硕士论文。你们懂的。反正,我快要完成经济学学位了,需要找个题目。

我选了一个实际上还挺感兴趣的方向:扫描并分析 IT 行业的招聘信息。计划是比较欧盟、美国和印度——雇主在找什么技能,各地区有什么差异,类似的东西。

于是我开始从 Glassdoor 抓取数据。听起来很简单,对吧?接下来才是有趣的部分——真正分析这些数据。

我本来打算用 Stata 或者学校教的其他分析软件。处理数据不就是这么做吗?把数据导入 Stata,跑几个回归,完事。

可是……我手里根本没有数字,只有文本。职位描述,成千上万条。而 Stata 对文本的支持并不好。

所以我必须先用 Python 之类的工具处理这些文本,才能考虑后面的分析。那时我就想——好吧,干脆全部用 Python 来搞定。lol。

顺便说一下,我以前从未写过 Python 代码。应该不会太糟,对吧?

结果,事情真的变得有趣了。

事实证明,这个方法论要比我预想的高级且复杂得多。我们在谈论 NLP、LLM 流水线、结构化数据抽取——整个过程。这已经不再是“导入数据,跑分析”了,而是真正的工程(我觉得,别怪我——我来自 React)。我正在解决的问题似乎真的在帮助我更清晰地思考。一路上做出的决定在塑造论文,我很喜欢这种感觉。

我现在是第 3 天。我的代码库大约有 5,800 行 Python——仅指 Python 文件,不包括配置文件或存在危机日志。

我本来是来写经济学论文的。我想我可能会以…完全不同的身份离开:Python 数据分析师(或者他们怎么叫的)。说实话?我已经有点上瘾了。

在接下来的帖子里,我会深入探讨在构建这个项目时遇到的有趣问题。如果你想一起跟进,记得点关注!

Back to Blog

相关文章

阅读更多 »