作为数据科学家的前90天
Source: Towards Data Science
I — 建立联系
在做任何事之前,我先从建立联系开始。当我还在学校时,我想象数据科学家是整天低头写代码、构建模型的人。然而,随着职级的提升,我意识到数据科学家通过深入业务、利用数据发现机会并推动业务决策来产生真正的影响。今天,随着数据科学团队规模收紧以及 AI 自动化了基础的编码和分析工作流,这一点尤为重要。
因此,在入职期间,建立联系并争取坐上决策桌应当是首要任务。这包括:
-
与经理和入职伙伴进行频繁的入职会议。
他们最了解你的未来工作范围、期望和重点。就我而言,我的经理也是我的入职伙伴,我们在前两周几乎每天都会见面。我总是带着在入职过程中遇到的问题清单前来。 -
安排与跨职能合作伙伴的见面会。
以下是我通常在这些通话中遵循的议程:- 个人介绍
- 对方的关注领域和首要任务
- 我的团队如何最好地支持他们
- 任何入职建议或“我应该知道的事”
我尤其喜欢最后一个问题,因为它总能提供很好的洞见。五年前,我在 Brex 入职时也问了同样的问题,并将回复归类汇总在这里。这次我得到的最佳答案是:
不要害怕提蠢问题。在前三个月尽可能多地打出新人卡。
-
对于这些关键合作伙伴,安排每周或每两周一次的 1:1 会谈,并让自己加入定期的项目会议。起初你可能贡献不多,但仅仅倾听并收集背景信息和问题就已经很有帮助。
-
如果你像我一样以经理身份入职,应该尽早与直接下属沟通。在入职期间,我的目标是从直接下属那里了解三件事:
- 他们的项目和挑战
- 他们对我作为经理的期望
- 他们的职业目标
第一点帮助我快速熟悉业务领域,后两点对于尽早建立信任和协作关系至关重要。
II — 构建领域背景
数据科学家之所以成功,是因为他们对业务有足够的了解,能够影响决策——而不仅仅是分析结果。因此,在入职期间的另一项重点是建立你的领域知识。常见的策略包括 与人交流、阅读文档、在 Slack 中搜索以及大量提问。
我通常先通过对话来确定关键的业务背景和项目。随后我会深入查阅 Google Drive 或 Confluence 中的相关文档,并阅读项目频道中的 Slack 消息。我还会在阅读文档后整理出问题,并在 1:1 会议中提出。
我遇到的一个挑战是陷入文档的“兔子洞”。每份文档都会指向更多文档,里面充斥着大量不熟悉的指标、缩写和项目。对于管理者来说,这尤其困难——如果每位团队成员都有三个项目,那么五个人就意味着要跟进十五个项目。曾有一次,我浏览器的 “待阅读”标签组打开了超过 30 个标签页。
幸好,AI 工具可以提供帮助。虽然逐篇阅读文档有助于深入理解,但 AI 工具擅长提供整体视图并连接各个点。例如:
-
Glean(DoorDash)可以访问内部文档和 Slack。我经常与 Glean 对话,提问如 “GOV 是如何计算的?” 或 “请提供项目 X 的摘要,包括目标、时间线、发现和结论”。它会链接到源文档,若需要可以快速深入查看。
-
NotebookLM – 我把一组关于特定主题的文档分享给它,并让它生成摘要和思维导图。这帮助我梳理思路。它还能创建播客,有时比阅读长文档更易消化。
-
ChatGPT(或类似工具)可以连接内部知识库,发挥类似的作用。
Source: …
III — 构建数据知识
构建数据知识与构建领域知识对数据科学家同样重要。作为一线经理,我对自己有一个简单的标准:我应该能够亲自进行数据工作,并且足够熟练,以便为团队提供实用、可信的指导。
以下是帮助我快速上手的做法:
-
在第一周搭建技术栈。
我建议尽早配置开发环境。访问权限、授权以及各种奇怪的环境问题往往比预期花的时间更长。越早完成所有设置,就能越快开始玩数据。 -
充分利用 AI 辅助的数据工具。
每家科技公司都在将 AI 融入其数据工作流。例如,在 DoorDash 我们使用 Cursor 连接 Snowflake,并具备内部数据知识和上下文。它可以生成基于我们数据的 SQL 查询和分析。虽然生成的查询并非 100 % 正确,但它推荐的表、连接以及指向的历史查询都是极好的起点。它不会取代你的技术判断,但能显著缩短获得首次洞察的时间。 -
直接探索数据。
拉取几张关键表,运行简单的探索性查询,并可视化结果。自问:- 主键和外键是什么?
- 哪些列存在缺失或异常值?
- 最常用的指标有哪些,如何计算?
-
记录你的学习。
保持一个活跃的 Markdown 文件或笔记本,内容包括:- 你发现的数据字典条目
- 常见的转换流水线
- 已知的数据质量问题及其缓解措施
及早与团队共享此文档可以展示主动性,并为后来的新人提供参考。
数据科学入职清单
| 类别 | 行动项 |
|---|---|
| 连接 | • 前两周每日与经理/入职伙伴同步 • 与跨职能合作伙伴的见面会(议程如上) • 与关键合作伙伴的每周/双周 1:1 • 与直接下属的早期 1:1(项目、期望、职业目标) |
| 领域背景 | • 通过对话识别核心业务问题 • 先阅读高层文档,再根据需要深入 • 使用 AI 工具(Glean、NotebookLM、ChatGPT)获取摘要和思维导图 • 保持“待阅读”列表在可管理范围,定期清理 |
| 数据知识 | • 第 1 周搭建开发环境并获取权限 • 连接 AI 辅助查询工具(Cursor 等) • 对关键表进行探索性查询 • 构建活跃的数据字典笔记本 • 及早向团队分享发现 |
IV — 从小做起,提前贡献
虽然入职培训主要是学习,但我强烈建议 从小做起,提前贡献。早期的贡献能够传递所有权并建立信任 — 往往比等待一个“完美”的项目更快。以下是一些具体做法:
-
改进入职文档
在阅读入职文档的过程中,你会遇到各种技术问题、失效链接或过时的说明。自行修复这些问题固然有价值,但完善文档能够展示你是团队合作者,并且希望为未来的新人提升入职体验。 -
编写文档
没有公司拥有完美的文档 — 根据我的经验以及与同行的交流,大多数数据团队都面临文档过时或缺失的困境。当你还在入职阶段、尚未忙于大型项目时,这正是填补这些空白的最佳时机。示例:
- 为团队创建了项目目录,用于集中存放过去和正在进行的项目,包括关键发现和联系人信息。
- 汇总了一套指标启发式,概括了从过去实验和分析中学到的指标之间的因果关系。
这些文档同样会为 AI 代理提供有价值的上下文,提升 AI 生成输出的质量和相关性。
-
提出流程改进建议
每个数据团队的运作方式各不相同,各有优缺点。加入新团队可以为流程提供全新的视角,可能会发现提升效率的机会。基于以往经验提出的深思熟虑的建议价值极高。
在我看来,成功的入职培训旨在建立 跨职能对齐、业务流畅度和数据直觉。
入职检查清单
第 1–2 周:基础
- 与关键业务合作伙伴会面
- 加入核心跨职能会议
- 了解团队重点和宏观优先级
- 搭建技术栈,获取访问权限和授权
- 编写你的第一行代码
- 阅读文档并提出问题
第 2–6 周:动手实践
- 深入了解团队 OKR 和常用数据表
- 深入你的关注领域(阅读更多文档并提问)
- 完成一个端到端的入门项目
- 进行早期贡献:更新过时信息、编写文档或提出流程改进建议
第 6–12 周:承担所有权
- 在跨职能会议中发声,提供数据驱动的观点
- 成为所在领域的 “首选” 人选,建立信任
入职方式因公司、岗位和资历而异,但原则保持一致。如果你即将开始新角色,希望此检查清单能帮助你更清晰、更自信地快速上手。