作为数据科学家的前90天

发布: (2026年2月14日 GMT+8 19:25)
13 分钟阅读

Source: Towards Data Science

I — 建立联系

在做任何事之前,我先从建立联系开始。当我还在学校时,我想象数据科学家是整天低头写代码、构建模型的人。然而,随着职级的提升,我意识到数据科学家通过深入业务、利用数据发现机会并推动业务决策来产生真正的影响。今天,随着数据科学团队规模收紧以及 AI 自动化了基础的编码和分析工作流,这一点尤为重要。

因此,在入职期间,建立联系并争取坐上决策桌应当是首要任务。这包括:

  • 与经理和入职伙伴进行频繁的入职会议。
    他们最了解你的未来工作范围、期望和重点。就我而言,我的经理也是我的入职伙伴,我们在前两周几乎每天都会见面。我总是带着在入职过程中遇到的问题清单前来。

  • 安排与跨职能合作伙伴的见面会。
    以下是我通常在这些通话中遵循的议程:

    1. 个人介绍
    2. 对方的关注领域和首要任务
    3. 我的团队如何最好地支持他们
    4. 任何入职建议或“我应该知道的事”

    我尤其喜欢最后一个问题,因为它总能提供很好的洞见。五年前,我在 Brex 入职时也问了同样的问题,并将回复归类汇总在这里。这次我得到的最佳答案是:

    不要害怕提蠢问题。在前三个月尽可能多地打出新人卡。

  • 对于这些关键合作伙伴,安排每周或每两周一次的 1:1 会谈,并让自己加入定期的项目会议。起初你可能贡献不多,但仅仅倾听并收集背景信息和问题就已经很有帮助。

  • 如果你像我一样以经理身份入职,应该尽早与直接下属沟通。在入职期间,我的目标是从直接下属那里了解三件事:

    1. 他们的项目和挑战
    2. 他们对我作为经理的期望
    3. 他们的职业目标

    第一点帮助我快速熟悉业务领域,后两点对于尽早建立信任和协作关系至关重要。

II — 构建领域背景

数据科学家之所以成功,是因为他们对业务有足够的了解,能够影响决策——而不仅仅是分析结果。因此,在入职期间的另一项重点是建立你的领域知识。常见的策略包括 与人交流、阅读文档、在 Slack 中搜索以及大量提问

我通常先通过对话来确定关键的业务背景和项目。随后我会深入查阅 Google Drive 或 Confluence 中的相关文档,并阅读项目频道中的 Slack 消息。我还会在阅读文档后整理出问题,并在 1:1 会议中提出。

我遇到的一个挑战是陷入文档的“兔子洞”。每份文档都会指向更多文档,里面充斥着大量不熟悉的指标、缩写和项目。对于管理者来说,这尤其困难——如果每位团队成员都有三个项目,那么五个人就意味着要跟进十五个项目。曾有一次,我浏览器的 “待阅读”标签组打开了超过 30 个标签页。

幸好,AI 工具可以提供帮助。虽然逐篇阅读文档有助于深入理解,但 AI 工具擅长提供整体视图并连接各个点。例如:

  • Glean(DoorDash)可以访问内部文档和 Slack。我经常与 Glean 对话,提问如 “GOV 是如何计算的?” 或 “请提供项目 X 的摘要,包括目标、时间线、发现和结论”。它会链接到源文档,若需要可以快速深入查看。

  • NotebookLM – 我把一组关于特定主题的文档分享给它,并让它生成摘要和思维导图。这帮助我梳理思路。它还能创建播客,有时比阅读长文档更易消化。

  • ChatGPT(或类似工具)可以连接内部知识库,发挥类似的作用。

Source:

III — 构建数据知识

构建数据知识与构建领域知识对数据科学家同样重要。作为一线经理,我对自己有一个简单的标准:我应该能够亲自进行数据工作,并且足够熟练,以便为团队提供实用、可信的指导。

以下是帮助我快速上手的做法:

  • 在第一周搭建技术栈。
    我建议尽早配置开发环境。访问权限、授权以及各种奇怪的环境问题往往比预期花的时间更长。越早完成所有设置,就能越快开始玩数据。

  • 充分利用 AI 辅助的数据工具。
    每家科技公司都在将 AI 融入其数据工作流。例如,在 DoorDash 我们使用 Cursor 连接 Snowflake,并具备内部数据知识和上下文。它可以生成基于我们数据的 SQL 查询和分析。虽然生成的查询并非 100 % 正确,但它推荐的表、连接以及指向的历史查询都是极好的起点。它不会取代你的技术判断,但能显著缩短获得首次洞察的时间。

  • 直接探索数据。
    拉取几张关键表,运行简单的探索性查询,并可视化结果。自问:

    1. 主键和外键是什么?
    2. 哪些列存在缺失或异常值?
    3. 最常用的指标有哪些,如何计算?
  • 记录你的学习。
    保持一个活跃的 Markdown 文件或笔记本,内容包括:

    • 你发现的数据字典条目
    • 常见的转换流水线
    • 已知的数据质量问题及其缓解措施

    及早与团队共享此文档可以展示主动性,并为后来的新人提供参考。

数据科学入职清单

类别行动项
连接• 前两周每日与经理/入职伙伴同步
• 与跨职能合作伙伴的见面会(议程如上)
• 与关键合作伙伴的每周/双周 1:1
• 与直接下属的早期 1:1(项目、期望、职业目标)
领域背景• 通过对话识别核心业务问题
• 先阅读高层文档,再根据需要深入
• 使用 AI 工具(Glean、NotebookLM、ChatGPT)获取摘要和思维导图
• 保持“待阅读”列表在可管理范围,定期清理
数据知识• 第 1 周搭建开发环境并获取权限
• 连接 AI 辅助查询工具(Cursor 等)
• 对关键表进行探索性查询
• 构建活跃的数据字典笔记本
• 及早向团队分享发现

IV — 从小做起,提前贡献

虽然入职培训主要是学习,但我强烈建议 从小做起,提前贡献。早期的贡献能够传递所有权并建立信任 — 往往比等待一个“完美”的项目更快。以下是一些具体做法:

  • 改进入职文档
    在阅读入职文档的过程中,你会遇到各种技术问题、失效链接或过时的说明。自行修复这些问题固然有价值,但完善文档能够展示你是团队合作者,并且希望为未来的新人提升入职体验。

  • 编写文档
    没有公司拥有完美的文档 — 根据我的经验以及与同行的交流,大多数数据团队都面临文档过时或缺失的困境。当你还在入职阶段、尚未忙于大型项目时,这正是填补这些空白的最佳时机。

    示例:

    • 为团队创建了项目目录,用于集中存放过去和正在进行的项目,包括关键发现和联系人信息。
    • 汇总了一套指标启发式,概括了从过去实验和分析中学到的指标之间的因果关系。

    这些文档同样会为 AI 代理提供有价值的上下文,提升 AI 生成输出的质量和相关性。

  • 提出流程改进建议
    每个数据团队的运作方式各不相同,各有优缺点。加入新团队可以为流程提供全新的视角,可能会发现提升效率的机会。基于以往经验提出的深思熟虑的建议价值极高。

在我看来,成功的入职培训旨在建立 跨职能对齐、业务流畅度和数据直觉

入职检查清单

第 1–2 周:基础

  • 与关键业务合作伙伴会面
  • 加入核心跨职能会议
  • 了解团队重点和宏观优先级
  • 搭建技术栈,获取访问权限和授权
  • 编写你的第一行代码
  • 阅读文档并提出问题

第 2–6 周:动手实践

  • 深入了解团队 OKR 和常用数据表
  • 深入你的关注领域(阅读更多文档并提问)
  • 完成一个端到端的入门项目
  • 进行早期贡献:更新过时信息、编写文档或提出流程改进建议

第 6–12 周:承担所有权

  • 在跨职能会议中发声,提供数据驱动的观点
  • 成为所在领域的 “首选” 人选,建立信任

入职方式因公司、岗位和资历而异,但原则保持一致。如果你即将开始新角色,希望此检查清单能帮助你更清晰、更自信地快速上手。

0 浏览
Back to Blog

相关文章

阅读更多 »

Structured AI (YC F25) 招聘中

概述 Structured AI 正在为建筑设计工程构建 AI 劳动力。 问题 当今,数十亿美元和数月的人力投入正……