作为数据科学家的前90天

发布: 3天前 (2026年2月14日 GMT+8 19:25)

13 分钟阅读

Source: Towards Data Science

I — 建立联系

在做任何事之前，我先从建立联系开始。当我还在学校时，我想象数据科学家是整天低头写代码、构建模型的人。然而，随着职级的提升，我意识到数据科学家通过深入业务、利用数据发现机会并推动业务决策来产生真正的影响。今天，随着数据科学团队规模收紧以及 AI 自动化了基础的编码和分析工作流，这一点尤为重要。

因此，在入职期间，建立联系并争取坐上决策桌应当是首要任务。这包括：

与经理和入职伙伴进行频繁的入职会议。
他们最了解你的未来工作范围、期望和重点。就我而言，我的经理也是我的入职伙伴，我们在前两周几乎每天都会见面。我总是带着在入职过程中遇到的问题清单前来。
安排与跨职能合作伙伴的见面会。
以下是我通常在这些通话中遵循的议程：
1. 个人介绍
2. 对方的关注领域和首要任务
3. 我的团队如何最好地支持他们
4. 任何入职建议或“我应该知道的事”
我尤其喜欢最后一个问题，因为它总能提供很好的洞见。五年前，我在 Brex 入职时也问了同样的问题，并将回复归类汇总在这里。这次我得到的最佳答案是：

不要害怕提蠢问题。在前三个月尽可能多地打出新人卡。
对于这些关键合作伙伴，安排每周或每两周一次的 1:1 会谈，并让自己加入定期的项目会议。起初你可能贡献不多，但仅仅倾听并收集背景信息和问题就已经很有帮助。
如果你像我一样以经理身份入职，应该尽早与直接下属沟通。在入职期间，我的目标是从直接下属那里了解三件事：
1. 他们的项目和挑战
2. 他们对我作为经理的期望
3. 他们的职业目标
第一点帮助我快速熟悉业务领域，后两点对于尽早建立信任和协作关系至关重要。

II — 构建领域背景

数据科学家之所以成功，是因为他们对业务有足够的了解，能够影响决策——而不仅仅是分析结果。因此，在入职期间的另一项重点是建立你的领域知识。常见的策略包括 与人交流、阅读文档、在 Slack 中搜索以及大量提问。

我通常先通过对话来确定关键的业务背景和项目。随后我会深入查阅 Google Drive 或 Confluence 中的相关文档，并阅读项目频道中的 Slack 消息。我还会在阅读文档后整理出问题，并在 1:1 会议中提出。

我遇到的一个挑战是陷入文档的“兔子洞”。每份文档都会指向更多文档，里面充斥着大量不熟悉的指标、缩写和项目。对于管理者来说，这尤其困难——如果每位团队成员都有三个项目，那么五个人就意味着要跟进十五个项目。曾有一次，我浏览器的 “待阅读”标签组打开了超过 30 个标签页。

幸好，AI 工具可以提供帮助。虽然逐篇阅读文档有助于深入理解，但 AI 工具擅长提供整体视图并连接各个点。例如：

Glean（DoorDash）可以访问内部文档和 Slack。我经常与 Glean 对话，提问如 “GOV 是如何计算的？” 或 “请提供项目 X 的摘要，包括目标、时间线、发现和结论”。它会链接到源文档，若需要可以快速深入查看。
NotebookLM – 我把一组关于特定主题的文档分享给它，并让它生成摘要和思维导图。这帮助我梳理思路。它还能创建播客，有时比阅读长文档更易消化。
ChatGPT（或类似工具）可以连接内部知识库，发挥类似的作用。

Source: …

III — 构建数据知识

构建数据知识与构建领域知识对数据科学家同样重要。作为一线经理，我对自己有一个简单的标准：我应该能够亲自进行数据工作，并且足够熟练，以便为团队提供实用、可信的指导。

以下是帮助我快速上手的做法：

在第一周搭建技术栈。
我建议尽早配置开发环境。访问权限、授权以及各种奇怪的环境问题往往比预期花的时间更长。越早完成所有设置，就能越快开始玩数据。
充分利用 AI 辅助的数据工具。
每家科技公司都在将 AI 融入其数据工作流。例如，在 DoorDash 我们使用 Cursor 连接 Snowflake，并具备内部数据知识和上下文。它可以生成基于我们数据的 SQL 查询和分析。虽然生成的查询并非 100 % 正确，但它推荐的表、连接以及指向的历史查询都是极好的起点。它不会取代你的技术判断，但能显著缩短获得首次洞察的时间。
直接探索数据。
拉取几张关键表，运行简单的探索性查询，并可视化结果。自问：
1. 主键和外键是什么？
2. 哪些列存在缺失或异常值？
3. 最常用的指标有哪些，如何计算？
记录你的学习。
保持一个活跃的 Markdown 文件或笔记本，内容包括：
- 你发现的数据字典条目
- 常见的转换流水线
- 已知的数据质量问题及其缓解措施
及早与团队共享此文档可以展示主动性，并为后来的新人提供参考。

数据科学入职清单

类别	行动项
连接	• 前两周每日与经理/入职伙伴同步 • 与跨职能合作伙伴的见面会（议程如上） • 与关键合作伙伴的每周/双周 1:1 • 与直接下属的早期 1:1（项目、期望、职业目标）
领域背景	• 通过对话识别核心业务问题 • 先阅读高层文档，再根据需要深入 • 使用 AI 工具（Glean、NotebookLM、ChatGPT）获取摘要和思维导图 • 保持“待阅读”列表在可管理范围，定期清理
数据知识	• 第 1 周搭建开发环境并获取权限 • 连接 AI 辅助查询工具（Cursor 等） • 对关键表进行探索性查询 • 构建活跃的数据字典笔记本 • 及早向团队分享发现

IV — 从小做起，提前贡献

虽然入职培训主要是学习，但我强烈建议 从小做起，提前贡献。早期的贡献能够传递所有权并建立信任 — 往往比等待一个“完美”的项目更快。以下是一些具体做法：

改进入职文档
在阅读入职文档的过程中，你会遇到各种技术问题、失效链接或过时的说明。自行修复这些问题固然有价值，但完善文档能够展示你是团队合作者，并且希望为未来的新人提升入职体验。
编写文档
没有公司拥有完美的文档 — 根据我的经验以及与同行的交流，大多数数据团队都面临文档过时或缺失的困境。当你还在入职阶段、尚未忙于大型项目时，这正是填补这些空白的最佳时机。

示例：
- 为团队创建了项目目录，用于集中存放过去和正在进行的项目，包括关键发现和联系人信息。
- 汇总了一套指标启发式，概括了从过去实验和分析中学到的指标之间的因果关系。
这些文档同样会为 AI 代理提供有价值的上下文，提升 AI 生成输出的质量和相关性。
提出流程改进建议
每个数据团队的运作方式各不相同，各有优缺点。加入新团队可以为流程提供全新的视角，可能会发现提升效率的机会。基于以往经验提出的深思熟虑的建议价值极高。

在我看来，成功的入职培训旨在建立 跨职能对齐、业务流畅度和数据直觉。

入职检查清单

第 1–2 周：基础

与关键业务合作伙伴会面
加入核心跨职能会议
了解团队重点和宏观优先级
搭建技术栈，获取访问权限和授权
编写你的第一行代码
阅读文档并提出问题

第 2–6 周：动手实践

深入了解团队 OKR 和常用数据表
深入你的关注领域（阅读更多文档并提问）
完成一个端到端的入门项目
进行早期贡献：更新过时信息、编写文档或提出流程改进建议

第 6–12 周：承担所有权

在跨职能会议中发声，提供数据驱动的观点
成为所在领域的 “首选” 人选，建立信任

入职方式因公司、岗位和资历而异，但原则保持一致。如果你即将开始新角色，希望此检查清单能帮助你更清晰、更自信地快速上手。

作为数据科学家的前90天

I — 建立联系

II — 构建领域背景

III — 构建数据知识

数据科学入职清单

IV — 从小做起，提前贡献

入职检查清单

第 1–2 周：基础

第 2–6 周：动手实践

第 6–12 周：承担所有权

相关文章

WTF 是 Causal Machine Learning Engineering？

Structured AI (YC F25) 招聘中

Semantic ablation：为什么 AI 写作通用且乏味

从第一原理理解AI：Multi-Layer Perceptrons 与 Hidden Layer 突破

I — 建立联系

II — 构建领域背景

III — 构建数据知识

数据科学入职清单

IV — 从小做起，提前贡献

入职检查清单

第 1–2 周：基础

第 2–6 周：动手实践

第 6–12 周：承担所有权

相关文章

WTF 是 Causal Machine Learning Engineering？

Structured AI (YC F25) 招聘中

Semantic ablation：为什么 AI 写作通用且乏味

从第一原理理解AI：Multi-Layer Perceptrons 与 Hidden Layer 突破

I — 建立联系

II — 构建领域背景

III — 构建数据知识

IV — 从小做起，提前贡献

第 1–2 周：基础

第 2–6 周：动手实践

第 6–12 周：承担所有权