Anaconda | 从零到数据科学可视化，五条路径中文

这可能就是你！点击此处提交我们的创客博客系列摘要。

探索是我在视觉分析中的创客旅程的重要组成部分。当涉及到数据时，我问了很多关于什么、何时、何地以及如何的问题。在这篇文章中，我邀请您与我一起专注于如何利用 Anaconda 数据科学平台构建一个游乐场，用于使用 Python 可视化数据，从您第一天的安装开始，并将其作为一个可扩展的工具箱，在第 565 天及以后继续使用。这次巡览与其说是线性的，不如说是蜿蜒曲折的，但有目的地为在工作中包含可视化工具带来的机会而设置。

在一个充斥着数据的世界中，视觉分析是人类进步的强大必需品，而 Anaconda 是许多学生和专业人士访问这些工具的门户。您可能会想，“我已经知道的数据可视化还有什么更多内容是我不知道的呢？”，或者您可能属于“是的，拜托！我对开源视觉分析工具感到好奇”阵营。无论哪种方式，我都在考虑您，以及如何在您的分析工作中更加可视化（并花费更多时间因您的工作而获得赞扬，而减少阅读数字的时间）。

继续阅读以了解

可视化在何处适用？哪些类型的问题适合视觉分析？
我们如何教导和支持学生继续学习。
社区资源，帮助您找到视觉分析工具。
少量开源工具的快速演示。

引用的每个软件包都是从更多 Python 和 R 选项中精心挑选出来的，这些选项包含丰富的视觉分析蓝图。对于每个软件包，您都将看到如何做一些特别的事情。我的目的是鼓励您自己探索这些以及更多工具。将其视为您从未有过的校园参观，由艺术和工业学院的双专业学生带领。

如果您的好奇心被激发到足以暂停并尝试一些新事物，您就成功了。您可能会找到您一直需要的东西，或者学会以新的眼光欣赏您最喜欢的工具。通过尝试新工具来可视化数据，庆祝您的 Anaconda 生日！

可视化在何处适用？何时适用？

简短的回答？无处不在。经常。

数据可视化对于您自己的学习、展示测试和实验结果的置信水平以及向其他人传达这些结果非常有用。在您加载您的第一个或下一个 Python 或 R 编程包之前，先问问自己数据看起来像什么。今天，更多角色中的更多人与数据科学互动。“眼见为实”这句老话比以往任何时候都更有助于有效的数据驱动学习，更多的人关注数据，更多的人参与其中。为了通过数据学习，团队协作，以及作为一个更大的社会发现并减少偏见[1]，我们需要工具来解码闭环系统的每个部分中的数据。数据以及使其激增的工具和模型，应属于我们的共同视野（而不是在阴影中偏见可能不受控制地增长的黑匣子之外）。

这就是可视化适用的地方。它在机器学习模型选择、可解释性、可解释性和可观察性方面具有至关重要的价值。自 2015 年 [17] 以来，计算机视觉等技术已经显示出在图像识别等任务中超越人类的潜力，但任何智能对我们的价值仍然受限于我们的理解和信任。在追求可能结合了纯粹神经和符号系统最佳特性的认知智能的同时，我们将继续开发方法来帮助更多人理解 AI 的工作原理。通常，简单的图表可以帮助我们看清最复杂的网络模型。

最后，也许今天（历史石膏数学）模型可以教给我们最重要的一课是提醒我们，在我们竞相将世界计算机化的过程中，有时数字世界并不总是比它取代的模拟世界更好。

Kalev Leetaru 用于教学的科学可视化曾经意味着石膏模型 (2019) [19]

抛开宏大的谈论，无论您沿着从商业到基因组学的分析研究和实验的弧线工作，您都可以利用我们对人类视觉系统处理超能力的了解。随着每一项新的研究[9]，我们对我们的生理系统如何为感知和认知运作了解得更多，但是人们一直认识到并广泛感受到，在任何分析过程中，查看数据都具有内在价值。

Anaconda 团队呼应了人脑快速准确处理图像的能力，毫不奇怪，您会在 Anaconda 平台上可以访问的数千个软件包中找到大量具有绘图功能的软件包。从基本的比较图表到统计分析、预测分析、机器学习和人工智能，如果没有某种形式的图形或绘图，工具包既不成熟也不精简。证明我是错的？自私地说，我相信无论哪种方式我们都会有所收获。

要问的视觉问题

为了更具体地将这种超能力应用于数据用例，数据可视化可以比在正文中跋涉或筛选数字更快地查明下一个值得您花费时间的问题，并提高围绕发现的确定性。有很多方法可以直观地探测数据。

探索性：哪些属性与您想要复制的最佳结果相关？数据集的分布是什么样的？
比较和关联：哪个表现更好？特征在哪里或何时发生了变化？是否有其他事物在一个方向或另一个方向上发生了变化？关系中是否存在线性模式，就像从连点成线涂色书中画一条线一样容易？
空间、时间或两者兼有：它从哪里开始？它会走多远？何时以及多久一次？
元数据：缺失值是捆绑在一起还是分散在整列中？数据收集中是否存在可能导致趋势被误解的重大差距？
统计：我的工作值得多大程度的信心？传播范围有多大？平均值还是中位数更能说明每个特定数据集中平均发生的情况？数据如何倾斜，如果您在它周围抛出一个网，您会在哪里捞到大约一半的数据？哪些异常值被排除在循环之外？

开始您自己的列表！

人们非常擅长使用形状、时钟和地理地图来回答日常问题。与文字和数字相比，这些数据的表达和预测有可能跨越文化和语言，并且变化程度相当小。考虑到您的受众以及对差异的适当敏感性，例如屏幕上颜色或方向性的解释方式，您可以限制混乱并增加他们找到所需答案的机会。

已经在使用 Anaconda 了吗？继续阅读！

开始之前

为了在您阅读时运行代码示例，我假设您已经安装了Anaconda 发行版。为了怀旧，这是以前称为 Individual Edition 的选项。它易于安装且完全免费。如果您在设置过程中有任何疑问，请不要气馁——有一个社区为您提供支持！

如果您是极简主义者，并且目前不想在您的机器上安装所有软件包，或者更喜欢更自定义的模块化方法来安装软件包，请改为安装Miniconda。我将赞赏您有辨别力的品味。使用 Miniconda，您需要随着您的进行安装这些示例中使用的更多软件包。

本文附带的大多数演示都显示在 Jupyter Notebook 中。交互式计算 notebook 适合我的意识流学习风格和笔记囤积倾向。在大多数情况下，代码本身可以移植到您的命令行界面 (CLI) 或集成开发环境 (IDE)。

使用 conda 管理环境是我建议您探索的另一个主题，但我已将其排除在从零到可视化的范围之外，以避免不必要的摩擦并让您继续探索。特定于每个任务或例如沙箱的虚拟环境可以隔离您的工作，帮助限制与软件包依赖项的冲突，甚至可以分离 Python 版本，这样您的存档项目在您升级时就不会崩溃。

但是，设置环境不必很困难，如果您决定不使用您尝试的软件包，它可以很容易地废弃一切并重新开始。基本命令可以在 Shell/Terminal 或命令行界面中运行。有关深入指南，请参见上面的链接。

`conda create –name vizenv`

然后在确认 `y` 以回答是创建环境后，激活它。

`conda activate vizenv`

无论您决定如何开始，首先进行设置，以便从我为您制作的内容中获得最大收益。💌

关注我们的学习方式

现在您有了一些方向，您应该从哪里开始？没有一流的可视化软件包。在 Python 或 R 中都没有，在更广泛的视觉分析领域中也没有万能工具。重要的是找到适合您需求的工具：与您的流程密切相关的工具，足够灵活和快速，可以无摩擦地嵌入到您的工作流程中，并且在 Anaconda 的上下文中，与您依赖的现有编程库集成。

数据科学广泛涉及许多学科。对于要解决的每个问题，仅在 Python 生态系统中就有许多围绕绘制数据构建的合适项目。Anaconda 平台提供了对许多具有可视化和其他图像功能的开源软件项目的访问，但是通常作为学生，当我们安装我们的第一个 Python 或 R 发行版时，没有花费足够的时间和精力来探索包含的所有选项，以便在常见或独特的环境中可视化数据。这是您再次查看您尚未使用的图形库或尝试为特定用例构建的组件的机会，这些组件可能在其他领域具有潜力。

以图表而非线性路径学习

如果您正在教授可视化，您如何鼓励探索时间？当然，在一个工具中投入足够的时间对于将概念转化为代码非常重要，而 Matplotlib 和 ggPlot 是很棒的工具。同时学习概念和代码很困难，并且大量的额外代码切换会减慢您的速度。

然而，使用像 Python 这样结构一致的解释型语言，也可以从接触多个项目中学习。例如，在调试代码时，全面了解项目从上到下的结构、独特之处和共同之处、哪些工具在某些任务中表现出色以及其他工具做得更好，是非常宝贵的。这种严谨的好奇心来自于尝试许多软件包和工具。

“如果问几位科学家来定义科学方法，人们很容易发现根本没有科学方法这种东西。我相信，人们会发现，没有两位科学家会完全同意。实际上，没有两位科学家以完全相同的方式工作和思考。”

Joel Henry Hildebrand (1985) “科学的形成”，Praeger Pub Text [2,3]

在这里引用一位化学家似乎很奇怪，特别是自从像他同名的 Benesi-Hildebrand 图这样的线性图的死亡[4] 以来，这些图在他们那个时代非常适合数据。即使他没有被称为“在寻找呈现数据使其落在一条直线上的方法方面的天才”[3]，即使他的根基和教育不是在费城及其周围（我是本地人，并且偏爱费城），Hildebrand 博士的科学方法和教学在这里因其坚持不懈的质疑精神而引人注目。这正是选择工具时应该进行的审查，而不仅仅是针对数据。

您是否有一套测试来确定对您来说什么是选择工具的测试？它是否可以作为您使用的科学计算库的扩展程序使用？它会成为令人眼花缭乱的数字表格的补救措施吗（或者它是否擅长为更快地阅读而设置表格信息的样式？表格在视觉规范中仍然有久经考验的地位！如果您在本篇文章中没有找到您需要的东西，您可能会找到一些想法或一个现成的模型来构建您在开源创客社区的角落。毕竟，发明源于需求和质疑精神。

这篇文章在Anaconda Nucleus上继续。

参考文献

（请继续访问Anaconda Nucleus以获取更多资源。）

[1] Dougherty, Jack, Ilyankou, Ilya, “动手数据可视化：从电子表格到代码的交互式叙事”，O’Reilly, Apt 4, 2022, https://handsondataviz.org/

[2] Hildebrand, Joel Henry, “科学的形成”，Praeger Pub Text，1985 年 3 月 5 日。

[3] Pitzer, K. S., “Joel henry Hildebrand 1881—1983：Kenneth S. Pitzer 的传记回忆录”，美国国家科学院，1993 年，https://www.nasonline.org/wp-content/uploads/2024/06/hildebrand-joel.pdf

[4] Hibbert, D. Brynn, Thordarson, Pall, Job 图的消亡，透明度、开放科学和在线工具、不确定性估计方法以及超分子化学数据分析的其他发展，英国皇家化学学会，2016 年 8 月 25 日，https://pubs.rsc.org/en/content/articlehtml/2016/cc/c6cc03888c

[9] 各作者，“感知和认知”文章，自 2022 年以来的搜索结果，通过 Google Scholar，于 2022 年 5 月 9 日访问，https://scholar.google.com/scholar?as_ylo=2022&q=%22perception+and+cognition%22

[17] Pohl, Margit, Wallner, G., Kriglstein, S., “使用滞后序列分析来理解可视化中的交互序列”，Science Direct，2016 年 8 月 11 日，https://www.sciencedirect.com/science/article/abs/pii/S1071581916300829

[19] Leetaru, Kalev, 用于教学的科学可视化曾经意味着石膏模型，福布斯，2019 年 4 月 20 日，https://www.forbes.com/sites/kalevleetaru/2019/04/20/scientific-visualizations-for-teaching-used-to-mean-plaster-models/?sh=23626a1f7ae2

关于作者

Kathryn Hurchla 是一位数据开发者和设计师，在家中塑造人类体验，担任 F Λ N T Λ S Y 的分析主管，这是一家与众不同的设计机构。她拥有数据分析和可视化硕士学位，喜欢构建端到端分析应用程序和撰写有关视觉数据科学的文章。您可以发现她沉迷于探索性数据分析。她作为 Plotly Dash 大使、领导实践学习以及独立并与数据可视化协会的 Nightingale 编辑委员会一起发布内容，为开源技术社区做出贡献。她自己的企业Data Design Dimension 有朝一日可能会成为她女儿们将世界变成她们所看到的样子所需要的工具。她的言论不代表她的雇主。

关于创客博客系列

Anaconda 正在每月博客系列中放大其最活跃和最受珍视的社区成员的声音。如果您是一位创客，一直在寻找机会讲述您的故事、详细阐述最喜欢的项目、教育您的同行并建立您的个人品牌，请考虑提交摘要。有关更多详细信息并访问丰富的教育数据科学资源和论坛，请访问Anaconda Nucleus。

与专家交谈

与我们的一位专家交谈，为您的 AI 之旅找到解决方案。

与专家交谈

从零到数据科学可视化，五条路径

Seaborn Objects 系统简介

Stable Diffusion：为什么难以获得多样化的结果？

从零到数据科学可视化，五条路径

与专家交谈

从零到数据科学可视化，五条路径

继续阅读以了解

可视化在何处适用？何时适用？

要问的视觉问题

开始之前

关注我们的学习方式

以图表而非线性路径学习

参考文献

关于作者

关于创客博客系列

您可能也对此感兴趣

Seaborn Objects 系统简介

Stable Diffusion：为什么难以获得多样化的结果？

从零到数据科学可视化，五条路径

与专家交谈