在为我们的 2021 年数据科学现状报告 收集信息后,“数据科学家”这一普遍的头衔立即变得显而易见。我们有超过 4000 名受访者,其中只有 11% 的人实际上将自己认定为数据科学家。另外 11% 的人认定为商业分析师,其余受访者则属于各种其他类别,包括开发人员、DevOps、MLOps 等等。这些头衔之间存在很大的重叠,这意味着它们都包含成为数据科学家所意味着的方面。
数据科学家的定义因行业和部门而异
从高层次来看,数据科学家负责清理、组织和一般地理解大量数据;我们上面提到的数据科学现状报告表明,数据准备、数据清理和报告是数据科学家花费时间最多的任务。当然,日常工作安排因行业和部门而异。在行业方面,数据科学的范围非常广泛;数据科学家在科技、医疗保健、金融、制造业、政府以及许多其他领域工作。
数据科学家的实际工作也因他们所涉及的部门而异,因为数据科学家在他们所在的组织中变得越来越不那么孤立。在 Anaconda 即将发布的 2022 年预测网络研讨会 上,Netflix 个性化体验创新总监 Christine Doig 谈到了数据科学家融入公司各个部门的情况。
她说:“当我们刚开始的时候,只有一种数据科学家,”“现在这个角色已经融入到组织中。现在,即使在数据科学团队内部,也有更多专业化。此外,也已经超越了传统意义上的纯粹的数据科学团队;例如,在 Netflix,我们有算法产品经理的角色。与设计团队、创意团队的整合更多。我认为这是我们在过去几年中在数据科学领域看到的转变。”毫无疑问,这种趋势将会继续下去。
无论公司如何,数据科学家越来越多地出现在产品管理部门。为什么?因为他们可以通过促进基于证据的决策、实验和创新来帮助产品团队领先于市场。参与团队确保数据科学家与产品和业务目标保持一致。
商业分析师、数据分析师和数据科学家,哦,我的天!
有很多头衔似乎经常与数据科学一起出现。除了数据科学家之外,还有商业分析师、数据分析师等等。那么,所有这些听起来非常相似的角色之间有什么区别呢?
我们求助于 Anaconda 的助理产品经理 Sheetal Kalburgi 来帮助回答这个问题。根据 Sheetal 的说法,数据科学家更技术性和统计性。数据科学家负责开发复杂的统计算法,这些算法可以传达产品性能、预测结果、设计 A/B 测试等实验,以及优化计算操作等等。商业分析师位于技术谱的另一端。他们更多地参与与业务相关的决策,例如增长分析、目标增长以及如何实现增长,而数据分析师则介于两者之间。数据分析师从数据中提取意义并将其传达给决策者,几乎充当数据科学家和商业分析师之间的联络人。商业分析师倾向于关注异常、趋势等等以解决业务问题,并牢记业务模型,而数据科学家则运用统计学、机器学习算法,能够用证据和数据支持的解决方案来解决问题。
需要考虑的第四个角色是数据工程师。Anaconda 的首席产品经理 Albert DeFusco 认为,随着越来越多的组织转向数据洞察力来帮助做出业务决策,对数据工程的需求将迅速增长。虽然数据科学和数据工程领域是相关的,但这两者通常是独立工作的。Albert 认为,随着工具和平台为合并数据科学和数据工程用例提供更多机会,这种情况将在未来一年发生改变。
最后,请记住,绝大多数数据科学家也是程序员。虽然有些人认为数据科学家不会编写代码,但事实恰恰相反。Anaconda 数据科学家 Sophia Yang 在最近的 博客文章 中阐述了这一点。“与软件工程师相比,”她说,“可能很容易让人觉得数据科学家不知道如何使用代码。但请不要误会:绝大多数数据科学家也是程序员,只是类型略有不同。”Sophia 继续说,数据科学家经常使用 Python 从数据集提取洞察力。他们使用数据管道和机器学习模型的代码来查询数据、设计特征等等。
如何成为一名数据科学家
虽然成为 数据科学家 并没有一条唯一的道路,但你可能希望攻读数学、计算机科学或类似学科的学士学位。之后,你需要攻读研究生学位,也许专门攻读数据和/或分析。了解你最感兴趣的行业也是一个好主意,无论是电子商务、交通运输、医疗保健还是其他行业。当然,除了行业之外,你还需要考虑你是否想要为某个特定的公司工作,比如 Netflix、Meta AI Research、维基媒体基金会,甚至 Anaconda。
如果你最终没有完成大学学位,也可以参加一些能够让你朝着成为数据科学家方向发展的培训课程。例如,Codecademy 和 Kaggle 提供数据科学培训课程。这些类型的课程可以帮助你构建可以分享的项目,从而建立行业联系并寻找你的第一个职业机会。
在建立了坚实的基础之后,还有很多在职学习要做。这是你能够看到机器学习理论得到实现的地方。随着你的进步,考虑更加专业化,同时继续拓展你的通用知识。这会让你更有价值,并为你的长期成功奠定基础。