我知道你在想什么。如果你是一名经验丰富的数据科学家,你对 Excel 的工作可能是勉强或短暂的。但是,当你走出数据科学和工程的稀有领域时,你会发现一个截然不同的现实。几十年来,在责任职位上的人们一直使用电子表格来做出关键决策。在 数据工程基础 的最后一章中,Joe Reis 和我这样谈论电子表格
“使用最广泛的数据平台是什么?是简单的电子表格。根据你阅读的估计,电子表格的用户群在 7 亿到 20 亿人之间。电子表格是数据世界中的暗物质。大量的数据分析在电子表格中进行,从未进入我们在这本书中描述的复杂数据系统。在许多组织中,电子表格处理财务报告、供应链分析,甚至客户关系管理。”
谁使用电子表格?CFO 使用它们来报告上市公司官方的季度收益。CMO 使用 Excel 来跟踪价值数亿美元的广告活动的支出。流行病学家、经济学家、供应链经理和采购人员使用电子表格进行大流行接触者追踪、通货膨胀分析、库存跟踪和招标文件。
沟通不畅
同时,数据科学家被指责挥霍巨额资金来执行带来很少具体价值的奢侈项目。糟糕的 沟通 和协作通常是罪魁祸首。在我们对最新工具和技术的兴奋中,我们没有 理解雇用我们的组织的更大目标,或者传达数据科学项目的潜在影响。Thomas C. Redman 在 哈佛商业评论中写道,关于他作为一名刚毕业的博士在贝尔实验室工作的经验教训。
“根据领英的说法,数据科学家的十大技能包括机器学习、R、Python、数据挖掘、数据分析、数据科学、SQL、MatLab、大数据和统计建模。重点是技能,许多数据科学家乐于运用这些技能,坐在电脑前,处理越来越多的数据,希望能找到一些有趣的东西。但仅仅将数据科学家放在合适的位置,让他们工作是不够的。你需要指示他们充分参与你的业务,向他们展示事物是如何运作的,帮助他们与组织中的其他人建立联系。”
好吧,我谈论的是沟通,但这篇文章应该是关于 Excel 的。Excel 如何帮助我们提高沟通技巧,成为更好的数据科学家?
改进的协作工具
数据科学家和业务用户经常交换电子表格作为一种协作形式。现在,这是一个笨拙的过程;虽然有很多库允许 Python 从电子表格读取和写入数据,但这些工具使用起来很复杂,尤其是在业务利益相关者一方。实际上,数据科学家必须进行大量手动工作来更新电子表格,并使协作成为可能。
虽然没有工具可以神奇地解决人类沟通问题,但 Excel 中的 Python 将为数据科学家和电子表格用户创建一个通用的工作平台,极大地简化协作流程。当像 Slack、Git 或 Asana 这样的工具使用得当时,它们会在共同问题上营造一种无缝协作的感觉。Excel 中的 Python 有可能提供类似的体验,最终让我们摆脱目前常见的“扔过墙去”的心态。
数据科学家仍然需要去他们的商业同事的办公桌旁,了解他们遇到的问题和他们试图实现的目标。但一旦他们做到了,他们将能够提供更简洁、更清晰的交付成果,减少手动工作和摩擦。可以将分析和建模代码直接嵌入电子表格中。用户可以在他们的工作表中执行 Python 代码,就像他们执行传统的 Excel 公式一样,无需复杂地本地安装代码库。
例如,一个产品采购团队将把库存和销售数据加载到电子表格中,并只需点击几下,就可以根据下周的销售目标设置参数,更新时间序列模型来预测未来的销售,并将数据导出以订购更多商品。此电子表格是由数据科学家使用他们在日常工作中编写的基于 Python 的工具构建的,但采购团队将独立更新他们的数据并执行代码。他们不再需要不断地 ping 数据科学家,询问为什么使用最新数据的刷新模型迟迟没有出来,而是可以将讨论集中在模型性能和潜在的未来改进上。
走向更好的 Excel
几周前,当我开始使用早期的 Excel 中的 Python beta 版时,我期待着通过添加基于 Python 的函数来对 Excel 公式系统进行轻微扩展;我发现的工具实际上是 Excel 可视化范例与数据科学家在 Jupyter 等工具中重视的笔记本方法的融合。 Valerio Maggio 发表的一篇关于使用 Excel 中的 Python 进行机器学习实验的优秀文章 演示了可能实现的各种功能。
实际上,虽然数据可以与相关的行限制一起嵌入工作表本身,但用户现在还可以访问 pandas 数据帧的完整机制和规模,直到可用内存的限制。Excel 还支持命名的全局 Python 变量,这对于跟踪算法和理解代码至关重要。因此,Excel 中的 Python 开始解决数据科学家每天都要面对的一些问题。
一些注意事项
截至本文撰写之时,Excel 中的 Python 处于 beta 测试阶段。目前,你可以运行各种面向数据科学的工具,但功能高度沙盒化,连接到数据源的范围有限。此外,目前不建议将其用于生产环境。即便如此,你仍然可以很好地了解该工具的功能,以便为将来使用做计划。
试一试
如果你是一名正在阅读这篇文章的数据科学家,我想你非常怀疑——我当然也一样。但是,如果你与在 Excel 中工作的业务用户一起工作和协作,请抛开你的怀疑,试用一下该工具。它比我想象的要强大得多,使用起来也容易得多,并且有可能改变我们合作方式的某些方面。
免责声明:截至本文发表之日,Microsoft Excel 中的 Python 集成处于 Beta 测试阶段。功能和功能可能会发生变化。 如果您在此页面上发现错误,请随时联系我们。
简介
Matt Housley 拥有数学博士学位,是畅销的 O'Reilly 图书《数据工程基础》的合著者。他开始在 8 位计算机(例如 Commodore 64 和 Apple IIc)上学习有关计算机的知识,最终通过教授数学学习了 Python,然后担任数据科学家和工程师。他目前从事数据工程、数据策略和数据政策方面的写作、培训、咨询和播客工作。