在征集我们的 2021 年数据科学现状报告 信息之后,“数据科学家”这个头衔的普遍性立刻显现出来。我们收到了超过 4,000 份回复,但只有 11% 的人实际上将自己定义为数据科学家。另有 11% 的人将自己定义为商业分析师,其余受访者则属于许多其他类别,包括开发人员、DevOps、MLOps 等。这些头衔之间存在很多交叉,这意味着它们都包含成为数据科学家的某些方面。
数据科学家的定义因行业和部门而异
从宏观层面来看,数据科学家负责清理、组织和大致理解大量数据;我们上面引用的数据科学现状报告表明,数据准备、数据清理和报告是数据科学家花费最多时间的一些任务。当然,日常安排因行业和部门而异。当谈到行业时,数据科学的触角非常广泛;数据科学家在技术、医疗保健、金融、制造、政府和许多其他领域工作。
数据科学家的实际工作也因他们接触的部门而异,因为数据科学家在组织内的孤立程度越来越低。在 Anaconda 即将发布的 2022 年预测网络研讨会 中,Netflix 个性化体验创新总监 Christine Doig 谈到了数据科学家融入公司各个部门的情况。
“当我们刚开始时,只有一种数据科学家,”她说,“现在这个角色已经融入到组织中。现在,即使在数据科学团队内部,也存在更多的专业化分工。而且,其扩展范围也超出了传统意义上纯粹的数据科学团队;例如,在 Netflix,我们有算法产品经理的角色。与设计团队、创意团队的整合也更多了。我认为这是我们在过去几年中看到的数据科学领域的一个转变。”毫无疑问,这种趋势将继续下去。
无论公司如何,数据科学家越来越多地出现的一个部门是产品管理部门。为什么?因为他们可以通过促进基于证据的决策、实验和创新,帮助产品团队领先于市场。参与团队工作可以确保数据科学家与产品和业务目标保持一致。
商业分析师、数据分析师和数据科学家,天哪!
有几个头衔似乎经常与数据科学一起出现。除了数据科学家之外,还有商业分析师、数据分析师等等。那么,所有这些听起来非常相似的角色之间有什么区别呢?
我们向 Anaconda 的助理产品经理 Sheetal Kalburgi 求助,以帮助回答这个问题。根据 Sheetal 的说法,数据科学家更具技术性和统计性。数据科学家负责的任务包括开发复杂的统计算法来传达产品性能、预测结果、设计 A/B 测试等实验以及优化计算操作等等。商业分析师则处于技术频谱的另一端。他们更多地参与与业务相关的决策,例如增长分析、目标增长以及如何实现增长,而数据分析师则介于两者之间。数据分析师从数据中提取意义并将其传达给决策者,几乎充当数据科学家和商业分析师之间的联络员。商业分析师倾向于关注异常情况、趋势等,以便在考虑业务模型的情况下解决业务问题,而数据科学家则采用统计学、机器学习算法来传达问题的解决方案,并以证据和数据为后盾。
要考虑的第四个角色是数据工程师。Anaconda 的首席产品经理 Albert DeFusco 认为,随着越来越多的组织转向数据洞察来帮助做出业务决策,对数据工程的需求将迅速增长。虽然数据科学和数据工程领域相关,但这两个领域通常是孤立运作的。Albert 认为,随着工具和平台为合并数据科学和数据工程用例提供更多机会,这种情况将在来年发生改变。
最后,请记住,绝大多数数据科学家也是程序员。虽然有些人认为数据科学家不会编码,但事实恰恰相反。Anaconda 数据科学家 Sophia Yang 在最近的一篇博客文章中详细阐述了这一点。“与软件工程师相比,”她说,“人们可能会倾向于认为数据科学家不知道如何使用代码。但请不要误会:绝大多数数据科学家也是程序员,只是类型略有不同。”Sophia 接着说,数据科学家通常使用 Python 从数据集中提取见解。他们使用数据管道和机器学习模型的代码来查询数据、设计特征等等。
如何成为数据科学家
虽然成为数据科学家没有唯一的途径,但您可能希望攻读数学、计算机科学或类似专业的学士学位。之后,最好攻读研究生学位,最好是专门研究数据和/或分析的学位。最好还详细了解您最感兴趣加入的行业,无论是电子商务、交通运输、医疗保健还是其他行业。当然,除了行业之外,您还需要考虑是否有没有您想为之工作的特定公司,例如 Netflix、Meta AI Research、Wikimedia Foundation,甚至 Anaconda。
如果您最终没有完成大学学位,也有训练营可以将您送上成为数据科学家的轨道。Codecademy 和 Kaggle 例如,提供数据科学训练营。这些类型的课程可以帮助您构建可以分享的项目,同时建立行业联系并寻找您的第一个职业机会。
在建立坚实的基础之后,还有大量的在职学习要做。这是您可以例如看到机器学习理论得到实施的阶段。随着您的进步,考虑变得更加专业,同时继续扩展您的通用知识。这将使您更有价值,并为您的长期成功奠定基础。