2023 年 8 月 29 日

面向 Excel 分析师的 Python：数据清洗和整理

Anaconda 团队

Dave Langer

这是系列博客文章中的第四篇，教您如何使用 Python 代码处理数据表。这篇文章的主题是数据分析中最关键的操作之一：清洗和整理您的数据。

如果您不熟悉，这里有一个来自维基百科的定义

“数据整理，有时也称为数据清洗，是将数据从一种 ‘原始’ 数据形式转换和映射到另一种形式的过程，目的是使其更适合和更有价值，以便用于各种下游目的，例如分析。”

作为一名 Excel 分析师，您无疑已经多次整理过数据。数据整理是您获得最具影响力的数据分析的原材料的方式。

使用 Python pandas 库清洗和整理您的数据为您提供两大优势：

高级分析（如机器学习）所需的数据整理技术
标准化您的整理流程，以便其他人可以快速重现它

如果您不熟悉 pandas 库，请查看本博客系列第 1 部分：基础知识。

本系列中的每篇文章都附带一个 Microsoft Excel 工作簿，供您下载并用于培养您的技能。这篇文章的工作簿可在此处下载。

为了方便起见，这里提供了本系列中所有博客文章的链接

注意：要重现本文中的示例，安装 Excel 中的 Python 试用版。如果您喜欢这个博客系列，请查看我的 Anaconda 认证课程， Excel 中的 Python 数据分析。

添加列

最常见的数据整理形式之一是添加从一个或多个现有表格列中的数据创建的新列。这种数据整理的示例包括

执行计算（例如，从一列中减去另一列）
从字符串列中提取子字符串
创建二进制指示器（例如，数据最初丢失）

添加列的目的是提高数据对特定分析技术的有用性。

例如，在机器学习中，此过程称为“特征工程”。特征工程旨在创建对构建预测模型最有用的数据表示。

在 Excel 中添加列

InternetSales 表提供了关于销售订单财务方面的两列：TotalProductCost 和 SalesAmount。添加一个新列 (GrossProfit) 将提供在许多分析中有用的附加信息。

使用 Microsoft Excel 添加新列的过程非常简单

**图 1 – 向 InternetSales 表添加 GrossProfit 列**

创建 GrossProfit 列后，需要用数据填充它。GrossProfit 的值应通过从表中每行的 SalesAmount 中减去 TotalProductCost 来计算。

Excel 用户填充 GrossProfit 列最常见的方式是使用单元格引用公式

Microsoft Excel 还支持使用结构化引用。例如，可以使用基于 TotalProductCost 和 SalesAmount 列的结构化引用的公式来填充 GrossProfit 列

使用图 3 的公式并按下 <enter> 键会自动为 InternetSales 表的每一行填充公式

向 pandas DataFrame 添加列在概念上类似于使用 Microsoft Excel 结构化引用公式。

使用 Python 添加列

这是一个如何将 GrossProfit 列添加到 InternetSales 表的示例

首先，使用 PY() 函数创建您的 Python 公式

接下来，当您键入 “(“ 时，单元格将指示它包含 Python 代码

以下 Python 代码添加了 GrossProfit 列，并用 internet_sales DataFrame 每行的计算值填充

**图 7 – 向 internet_sales DataFrame 添加 GrossProfit 列**

注意：图 7 中描绘的代码显示在多行上，因为单元格使用 Excel 功能区设置为自动换行。

从概念上讲，图 7 的代码的工作方式如下

代码 internet_sales[‘GrossProfit’] 告诉 internet_sales DataFrame 您要访问 GrossProfit 列。
由于 internet_sales DataFrame 不存在 GrossProfit 列，因此等号被解释为创建新列。
等号右侧的代码逐行应用。
GrossProfit 用每行的 SalesAmount 减去 TotalProductCost 的计算值填充。

在键盘上按 <Ctrl+Enter> 执行 Python 公式，在 Excel 工作表中产生以下内容

由于图 7 的 Python 代码没有返回任何内容（即，代码更改了 internet_sales DataFrame），因此图 8 中描述的 NoneType 是预期的。

运行以下 Python 代码将允许您检查更改后的 DataFrame

**图 9 – 返回更改后的 internet_sales DataFrame**

要查看更改后的 DataFrame，请将鼠标悬停在卡片上

单击卡片将显示 internet_sales 的内容

如图 11 所示，Python 代码产生与图 3 中的 Excel 结构化引用公式相同的输出。

考虑图 7 中的代码。当执行此代码时，计算会自动逐行执行。这是 pandas DataFrame 的一种称为“向量化”的行为。

作为一名 Excel 分析师，您熟悉向量化：它是 Excel 表格的默认行为。pandas DataFrame 对向量化的支持使在 Python 中处理数据表非常容易。

在 Python 中清洗数据

上一节介绍了最常见的数据整理场景之一：添加新列。本节将介绍另一个常见的数据整理场景：清洗现有列中的数据。

从概念上讲，清洗数据包括三个步骤

识别需要清洗的列
对于需要清洗的列，执行各种清洗操作
用清洗后的数据覆盖需要清洗的列的原始列数据

识别需要清洗的列的最快方法是获取 DataFrame 的摘要。

DataFrame 摘要

DataFrame 提供 info() 方法，为您提供 DataFrame 内容的摘要

**图 12 – 调用 internet_sales DataFrame 的 info() 方法**

执行图 12 的代码不会返回任何内容。相反，调用 info() 方法将触发 Excel 打开“诊断”窗格以显示 DataFrame 摘要：

info() 方法提供有用的信息，用于识别需要清洗的列。查看图 13，为您提供以下信息

DataFrame 中有 60,398 个条目（即行）。
DataFrame 中有九列。
每列都有 60,398 个非空值。
以下列是数值型的：SalesOrderLineNumber、OrderQuantity、TotalProductCost、SalesAmount 和 GrossProfit。
OrderDate 列是日期时间型。
以下列是字符串型：SalesOrderNumber、ProductSubcategoryName 和 ProductName