使用 Anaconda Assistant 完成端到端数据科学项目

Sophia Yang

Anaconda 最近宣布了 Anaconda Assistant,这是 Anaconda Notebooks 中一个基于 AI 的 Jupyter Notebook 扩展。Anaconda Assistant 旨在通过 Python 增强您的编码体验,它提供了一个直观的聊天界面,旨在简化您的数据科学项目。在本博文中,我们将使用 Anaconda Assistant 逐步完成数据科学项目的关键阶段,包括加载、理解和可视化数据,然后应用机器学习技术进行分类。

开始使用 Anaconda Notebooks 和 Anaconda Assistant

Anaconda Notebooks 是一种云笔记本服务,允许任何人,在任何地方开始编码并开始他们的数据科学之旅。首先访问 https://nb.anaconda.cloud/,您会看到熟悉的 Jupyter Notebook 界面。Anaconda Notebooks 为您提供预构建的环境,您可以立即使用。单击笔记本部分中的一个磁贴以打开一个空笔记本,然后单击此图标启动助手

加载数据

让我们从加载一些数据开始我们的项目。不确定从哪里查找数据以及使用哪些数据?没问题!Anaconda Assistant 可以帮助您轻松查找和加载数据集,只需单击“加载 DataFrame”即可查看要选择的数据集列表。选择一个 DataFrame——例如,“加载 Palmer 企鹅数据集”——Anaconda Assistant 将自动创建代码以为您加载此数据集。最后,单击“在笔记本中运行代码”以运行代码。

现在,我们已成功将企鹅数据集加载到 Anaconda Notebooks 中的 Pandas DataFrame df 中。

您还可以编写自己的提示以加载数据集。例如,以下是一些您可以使用的**提示**:

我想了解数据科学和机器学习。你能帮我找到数据集并将其加载到 Pandas DataFrame 中吗?

使用此提示,Anaconda Assistant 加载了一个鸢尾花数据集。请随意尝试提示以发现其他数据集。在本博文的其余部分,我们将使用企鹅数据集作为我们的说明性示例。

理解数据

在深入分析之前,了解数据至关重要。首先,让我们通过单击“附加到聊天”将企鹅 DataFrame 附加到聊天。此步骤将发送 DataFrame 信息(包括其列和数据类型)到 Anaconda Assistant。

然后,我们可以使用各种提示来要求 Anaconda Assistant 帮助我们理解数据。例如,我们可以直接要求 Anaconda Assistant “帮我理解这些数据”。结果显示了有关每列的详细信息

**提示:**帮我理解这些数据

我们可以进一步询问有关变量描述的问题,我们可以在其中找到有关每列的描述性统计信息的信息,包括计数、平均值、std、最小值和最大值,以及下限、50% 和上限百分位数的值。

**提示:**变量的分布?

对变量之间的相关性感到好奇吗?只需在提示中询问即可。喙长度(mm)似乎与鳍长(mm)和体重(克)呈正相关。鳍长(mm)与体重(克)的相关性最高。

**提示:**变量之间的相关性是什么?

在数据科学项目中,我们经常需要处理缺失值。幸运的是,此 DataFrame 的缺失值很少,因此我们无需担心。否则,我们可以要求 Anaconda Assistant 在需要时帮助我们插补缺失值。

**提示:**DataFrame 中是否有缺失值?

数据集中有几个分类变量;以下是一个示例,显示我们可以要求 Anaconda Assistant 将分类变量编码为数值变量。

**提示:**帮我将性别变量编码为数值变量

数据可视化

以类似的方式,我们可以使用不同的提示以视觉方式探索数据。您的提示可以从一般到具体,Anaconda Assistant 将帮助您相应地可视化数据。

**提示:**帮我以视觉方式理解这些数据

**提示:**帮我以视觉方式理解每个物种的数据

机器学习

一旦我们更好地掌握了数据,我们就可以继续构建模型。例如,我们可以开发用于预测企鹅物种和性别的分类模型。正如我们之前所见,我们可以依靠 Anaconda Assistant 来指导我们完成模型构建过程。在此步骤中,将以下详细信息包含在您的提示中非常有价值

  • DataFrame,例如“df”
  • 模型类型,例如分类模型
  • 您正在考虑的算法,例如随机森林
  • 您正在使用的特征,例如喙长度、喙深度、鳍长和体重
  • 目标变量,例如物种

通过指定这些元素,Anaconda Assistant 可以更好地理解您的项目目标,并有效地帮助您构建所需的模型。您甚至可以要求 Anaconda Assistant 使用各种模型算法并比较它们的性能。这就是我在以下示例中所做的。

物种分类

**提示:**使用此 DataFrame df,我想尝试使用诸如喙长度、喙深度、鳍长和体重等特征的分类模型来预测物种。你能运行 LogisticRegression、RandomForest 和 SVC 模型吗?你能告诉我哪个模型效果最好吗?

结果表明,随机森林效果最佳。我们可以通过混淆矩阵进一步调查模型性能:

**提示:**你能展示这三个模型 lr_model、rf_model 和 svc_model 的混淆矩阵吗?

性别分类

使用相同的提示,我们可以进行一个预测企鹅性别的分类模型

**提示:**使用此 dataframe df,我想尝试使用诸如喙长度、喙深度、鳍长和体重等特征的分类模型来预测性别。你能运行 LogisticRegression、RandomForest 和 SVC 模型吗?你能告诉我哪个模型效果最好吗?

结论

Anaconda Assistant 是一款强大的 AI 工具,它使数据科学家能够无缝地完成端到端数据科学项目。从加载和理解数据到可视化见解和应用机器学习算法,Anaconda Assistant 简化了流程,并使高效数据分析成为可能。无论您是初学者还是经验丰富的数据科学家,Anaconda Assistant 都可以简化和增强您的数据科学工作流程,使将简单提示转换为有价值的见解变得更加容易。访问 Anaconda Notebooks 立即试用 Anaconda Assistant!

与专家交谈

与我们的专家交谈,以找到适合您的 AI 旅程的解决方案。

与专家交谈