我知道你在想什么。如果你是一位经验丰富的数据科学家,你对 Excel 的工作可能是勉强的或短暂的。但是,当你走出数据科学和工程学的精深领域时,你将发现一个非常不同的现实。身居要职的人们几十年来一直使用电子表格来做出关键决策。在《数据工程基础》的最后一章中,Joe Reis 和我对电子表格有这样的评价:
“最广泛使用的数据平台是什么?是简陋的电子表格。根据你阅读的估计,电子表格的用户群在 7 亿到 20 亿人之间。电子表格是数据世界的暗物质。大量的数据分析在电子表格中运行,并且从未进入我们在本书中描述的复杂数据系统。在许多组织中,电子表格处理财务报告、供应链分析,甚至 CRM。”
谁使用电子表格?首席财务官使用它们来报告上市公司的官方季度收益。首席营销官使用 Excel 来跟踪数亿美元的广告活动支出。流行病学家、经济学家、供应链经理和采购官员使用电子表格进行疫情接触者追踪、通货膨胀分析、库存跟踪和 RFP。
沟通失败
与此同时,数据科学家被指责挥霍大量资金来执行奢华的项目,但这些项目几乎没有带来具体的价值。沟通和协作不畅通常是罪魁祸首。在我们对最新工具和技术的兴奋中,我们未能理解雇用我们的组织的更大目标,也未能传达数据科学项目的潜在影响。Thomas C. Redman 在《哈佛商业评论》中写到了他在贝尔实验室作为一名新毕业的博士工作时学到的教训。
“根据 LinkedIn 的数据,数据科学家的前 10 项技能包括机器学习、R、Python、数据挖掘、数据分析、数据科学、SQL、MatLab、大数据和统计建模。重点是技能,许多数据科学家非常乐意应用这些技能,同时坐在电脑前,处理不断增加的数据量,希望找到一些有趣的东西。但是,仅仅将数据科学家放在正确的位置并让他们工作是不够的。你需要指示他们充分参与你的业务,向他们展示事情的真实运作方式,并帮助他们与组织中的其他人建立联系。”
好吧,我谈论的是沟通,但这篇文章应该是关于 Excel 的。Excel 如何帮助我们提高沟通技巧并成为更好的数据科学家呢?
改进的协作工具
数据科学家和业务用户经常交换电子表格作为一种协作形式。目前,这是一个笨拙的过程;虽然有各种库允许 Python 从电子表格中读取和写入电子表格,但这些工具使用起来很复杂,尤其是在业务利益相关者方面。在实践中,数据科学家必须做大量的体力劳动来更新电子表格并使协作成为可能。
虽然没有工具可以神奇地解决人际沟通问题,但 Excel 中的 Python 将为数据科学家和电子表格用户创建一个通用的工作平台,从而显着简化协作流程。当 Slack、Git 或 Asana 等工具得到良好使用时,它们会在共同问题上创造一种无缝协同工作的感觉。Excel 中的 Python 有潜力提供类似的体验,最终使我们能够超越目前常见的“抛过墙”心态。
数据科学家仍然需要拜访业务同事的办公桌,以了解他们遇到的问题以及他们试图实现的目标。但是一旦他们这样做,他们将能够提供更简洁、更清晰的交付成果,减少人工工作和摩擦。将分析和建模代码直接嵌入电子表格中将成为可能。用户可以直接在工作表中执行 Python 代码,就像他们使用传统的 Excel 公式一样,而无需复杂地本地安装代码库。
例如,产品购买团队会将库存和销售数据加载到电子表格中,只需点击几下,即可根据下周的销售目标设置参数,更新时间序列模型以预测未来销售额,并导出数据以追加订单。此电子表格由数据科学家使用他们每天编写代码的基于 Python 的工具构建,但购买团队将独立更新他们的数据并执行代码。他们可以专注于模型性能和潜在的未来改进,而不是不断 ping 数据科学家,询问为什么使用最新数据刷新的模型迟迟未到。
迈向更好的 Excel
当我几周前开始使用早期的 Excel 中 Python 测试版时,我期望通过添加基于 Python 的函数来稍微扩展 Excel 公式系统;我发现的工具实际上是将业务用户熟悉的 Excel 可视化范例与数据科学家在 Jupyter 等工具中重视的笔记本方法融合在一起。Valerio Maggio 的优秀文章介绍了使用 Excel 中的 Python 运行机器学习实验,演示了可能实现的功能类型。
在实践中,虽然数据可以嵌入到工作表本身及其相关的行限制中,但用户现在还可以访问 pandas 数据帧的全部机制和规模,直至可用内存的限制。Excel 还支持命名的全局 Python 变量,这对于跟踪算法和理解代码至关重要。因此,Excel 中的 Python 开始解决数据科学家每天面临的一些问题。
一些注意事项
截至撰写本文时,Excel 中的 Python 仍处于测试阶段。目前,你可以运行各种面向数据科学的工具,但该功能是高度沙盒化的,并且与数据源的连接性有限。此外,还不建议用于生产环境。即便如此,你仍然能够很好地了解此工具的强大功能,以便你可以为未来的使用做好计划。
试一试
如果你是一位正在阅读这篇文章的数据科学家,我假设你非常怀疑——我当然是。但是,如果你与在 Excel 中工作的业务用户一起工作和协作,请将你的怀疑放在一边,并试用该工具。它比我想象的要强大得多且易于使用,并且有可能改变我们协同工作方式的某些方面。
免责声明:截至本文发布之时,Microsoft Excel 中的 Python 集成正处于 Beta 测试阶段。功能可能会发生变化。如果你在此页面上发现错误,请随时联系我们。
个人简介
Matt Housley 拥有数学博士学位,并且是畅销书 O’Reilly 图书《数据工程基础》的合著者。他从 Commodore 64 和 Apple IIc 等 8 位机器开始学习计算机,并在成为数据科学家和工程师之前,通过教授数学最终学会了 Python。他目前从事数据工程、数据战略和数据政策方面的写作、培训、咨询和播客。