随着数据科学的成熟,它正在褪去一些神秘色彩,从很多方面来说都是一件好事。随着越来越多的组织看到了他们在数据科学能力方面的投资回报,业务领导者正在对该领域形成更加现实的看法。但虽然一些人可能已经对数据科学能够做什么有了更细致的了解,但很少有人理解数据科学是如何完成的。因此,即使数据科学从业者已经成为不可或缺的员工,但对于许多人来说,该领域仍然是一个“黑盒子”。
这是我们 2021 年数据科学现状报告中的一项发现,在该报告中,我们询问了来自 140 多个国家的 4000 多名数据从业者,他们认为数据科学中最大的迷思是什么。结果表明,这种实践和专业有时对 C 级高管和其他利益相关者来说仍然不透明。为了让数据科学继续发挥其巨大的潜力,我们必须纠正组织领导者持有的错误假设。
在这篇文章中,我们将深入探讨今年数据科学现状报告中提到的最大迷思,并提供解释来帮助消除这些迷思。
迷思 1:更多数据意味着更高精度
许多公司认为,在收集数据时,数量应该放在首位。考虑到研究和调查过程通常教导我们,大样本量将得出更好的结论,这一点并不令人惊讶。但随着越来越多的企业将分析应用于其决策制定,对更大数据量的需求正在不断增长。囤积大量数据真的能提高性能吗?
从业者说,不。当被问及数据科学中最大的迷思是什么时,31% 的受访者表示,认为拥有更多数据就意味着更高精度。另外 15% 的受访者选择“你需要大量数据”作为关于数据科学的首要误解。深度和广泛的训练数据池确实有一些好处,例如解决方差问题。但更多的数据并不一定能解决其他问题,比如偏差,也不能取代更传统的分析。拥有最先进的数据科学能力的公司已经知道这一点。
那么,企业应该将他们的数据工作重点放在哪里?正如俗话说,质量胜于数量。组织不应该问它是否足够,而是应该问他们是否为团队提供了干净、相关且有用的数据来构建他们想要构建的模型。事实上,大量低质量数据可能会导致结果混乱和洞察力不足,正如早期尝试将 AI 应用于抗击 COVID-19 所带来的令人失望的结果所示。如果企业优先考虑更强大的数据管理实践和更好的沟通,而不是盲目追求数据量,他们会做得更好,也会让他们的数据科学家更快乐。
迷思 2:数据科学即将被自动化
经历了近两年的疫情导致工厂车间和供应链陷入混乱,再加上紧张的劳动力市场,各行各业的企业高管都开始关注自动化的前景。有些人可能会认为,数据科学是当今许多自动化的基础,是下一波 AI 驱动的颠覆的自然候选者。但这种情况似乎不太可能:在我们的调查中,33% 的受访者认为,数据科学家很快就会被 AI 取代,这是最严重的迷思。
很少有数据科学家担心机器会来取代他们。相反,他们看到了 AI 和自动化帮助完成容易重复的任务的机会,从而释放更多资源来进行需要人工干预、解释和解决问题的工作。简而言之,自动化将使人们能够开发更复杂的模型或算法,并减少在例行工作上花费的时间。因此,毫不奇怪,只有 4% 的调查受访者对 AutoML 持负面看法,而 55% 的人对它持正面情绪。
迷思 3:数据科学家不会编码
数据科学仍然是一个新兴领域,许多组织才刚刚开始招聘专门的数据科学人才。数据科学家经常被归入组织内的其他“技术”员工。与软件工程师相比,人们可能会认为数据科学家不会使用代码。但不要误会:绝大多数数据科学家也是程序员,只是类型略有不同。在受访者中,19% 的人将“数据科学家不会编码”列为关于数据科学的最大迷思。
数据科学家和软件工程师之间的区别在于他们如何、何时以及为什么使用代码。对于数据科学家来说,Python 通常是他们从数据集中提取见解的工具箱中的基本技能。他们使用其数据管道和机器学习模型的代码来查询数据、设计特征以及构建和部署模型。相比之下,软件工程师主要使用代码进行产品开发,通常专注于基础设施、自动化、测试和维护。尽管如此,由于成为软件工程师所需的技能种类繁多,一些技能最终将与数据科学家的技能重叠——这两个群体之间的共同点比许多人意识到的要多。
消除迷思的好处
随着数据科学家不断寻求更有效地与组织中的其他业务部门整合,在可行的情况下,花时间消除这些常见的迷思至关重要。提高对数据科学家工作方式的认识可以帮助改善从模型预测的准确性到招聘填补职位空缺的候选人质量的一切。
您认为还有其他需要消除的数据科学迷思吗?请在Twitter上告诉我们。