这可能是你!点击 这里 提交我们制造商博客系列的摘要。
探索是我在视觉分析中制造之旅的重要组成部分。谈到数据,我问了很多“什么”、“何时”、“何地”和“如何”的问题。在这篇文章中,我邀请你和我在数据可视化领域进行一次旅程,重点介绍如何利用 Anaconda 数据科学平台构建一个用 Python 可视化数据的游乐场,从第一天安装到第 565 天及以后的扩展工具箱。这段旅程更像蜿蜒曲折,而不是线性前进,但它有意为将视觉工具纳入工作中创造机会。
视觉分析是在一个充满数据的世界上,人类进步的强大必要工具,Anaconda 是许多学生和专业人士使用这些工具的入口。你可能会想,“可视化数据还有什么是我不知道的?”,或者你可能属于“太好了!我对开源视觉分析工具很感兴趣”阵营。无论哪种情况,我都在为你着想,以及如何让你在分析工作中更具视觉性(并花更多时间获得工作认可,少花时间阅读数字)。
继续阅读以了解
-
可视化在何处发挥作用?哪些类型的问题适合视觉分析?
-
我们如何教导和支持学生继续学习。
-
社区资源可以帮助你找到视觉分析工具。
-
一些开源工具的快速演示。
引用的每个软件包都从 Python 和 R 中丰富的视觉分析蓝图选项中精心挑选。对于每个软件包,你将看到如何做一些特殊的事情。我的目的是鼓励你自己探索这些工具和更多工具。把它想象成你从未参加过的由艺术和工业学校双专业学生带领的校园之旅。
如果你对尝试新事物的好奇心被激发到足以停下来尝试,那么你就成功了。你可能会找到你一直需要的東西,或者从新的角度欣赏你最喜欢的工具。通过尝试新的工具来可视化数据,庆祝你的 Anaconda 生日吧!
可视化在何处发挥作用?以及何时发挥作用?
简短回答?无处不在。经常。
数据可视化对于你自己的学习、展示测试和实验结果的置信水平以及将这些结果传达给其他人非常有用。在你加载第一个或下一个 Python 或 R 编程软件包之前,问问自己数据看起来是什么样子的。如今,更多不同角色的人员与数据科学互动。“示而不要说”这句老话对于有效的数据驱动学习、更多人关注数据以及更多人参与其中比以往更加有用。为了用数据学习、团队协作以及发现和减少偏差[1],作为一个更大的社会,我们需要工具来解码封闭环路系统各个部分的数据。数据以及产生数据的工具和模型,应该属于我们的共同视野(而不是黑盒子,在那里偏差可以在阴影中不受控制地增长)。
这就是可视化的作用所在。它对于机器学习模型选择、可解释性、可解释性和可观察性具有重要价值。像计算机视觉这样的技术已经证明,在像图像识别这样的任务中,其潜力超过了人类,早在 2015 年就已出现[17],但任何智能对我们的价值仍然取决于我们的理解和信任。除了追求人工认知,也许这将结合纯粹的神经系统和符号系统的最佳方面,我们继续开发方法来帮助更多人理解 AI 的工作原理。通常,简单的图表帮助我们洞察最复杂的网络模型。
最终,也许我们今天能从最大的教训(历史上的石膏数学)模型中学到的是,在我们将世界数字化进程中,有时数字世界并不总是比它取代的模拟世界更好。
凯勒夫·利塔鲁科学可视化用于教学曾经意味着石膏模型 (2019)[19]
抛开这些宏大的言论,无论你是在商业领域还是基因组学领域,在分析研究和实验的整个过程中,你都可以利用我们对人类视觉系统处理能力的了解。随着每项新的研究[9],我们更多地了解了我们的生理系统如何运作感知和认知,但人们普遍认可并深深体会到,查看数据在任何分析过程中的内在价值。
Anaconda 的团队已经强调了人脑快速准确地处理图像的能力,毫不奇怪,你会发现大量软件包中内置了绘图功能,这些软件包都在 Anaconda 平台上提供了数千个软件包。从基本的比较图表到统计分析、预测分析、机器学习和人工智能,如果没有图表或绘图,工具箱就不成熟也不精简。你能证明我错了嗎?自私地说,我相信无论结果如何,我们都会有所收获。
要提出的视觉问题
为了更具体地将这种强大功能应用于数据用例,数据可视化可以精确地指出下一个值得你花时间研究的问题,并比浏览文本或筛选数字更快地提高对发现的确定性。有许多方法可以通过视觉方式探测数据。
-
探索性:哪些属性与你想要复制的最佳结果相关联?数据集的分布是什么样的?
-
比较和关联:哪个效果更好?在哪裡或何时出现特征变化?其他任何东西是否朝着一个方向或另一个方向改变?关系是否存在一个线性模式,就像连接点绘图书一样容易画一条线?
-
空间、时间或两者兼而有之:它从哪里开始?它能走多远?何时,以及频率如何?
-
元数据:缺失值是捆绑在一起还是分散在整列中?数据收集过程中是否存在重大空白,这会导致对趋势的误解?
-
统计:我的工作应具有什么置信水平?范围有多大?平均值或中位数值更能说明每个特定数据集中平均发生的事件吗?数据如何倾斜,如果你用一个网把它包起来,你会在网中收集到大约一半的数据吗?哪些异常值被排除在循环之外?
创建你自己的列表!
人们非常善于使用形状、钟表和地理地图来回答日常问题。这些数据表达和投影有可能跨越文化和语言,而与单词和数字相比,差异程度相对较小。考虑到你的受众并对差异保持适当的敏感性,例如屏幕上颜色的解释方式或方向性的解释方式,你可以限制混淆并增加他们找到所需答案的可能性。
已经使用 Anaconda?继续阅读!!
在开始之前
为了在阅读时运行代码示例,我假设你已经安装了Anaconda 发行版。为了怀旧起见,这是以前称为 Individual Edition 的选项。它易于安装,完全免费。如果你在设置过程中遇到任何问题,不要气馁——有一个社区来支持你!
如果你是一个极简主义者,不想在你的机器上安装所有这些软件包,或者更喜欢自定义模块化方法来安装软件包,那么从安装Miniconda开始。我将赞赏你的审慎选择。使用 Miniconda,你需要在继续时安装更多本文中使用的软件包。
本文附带的大多数演示都在Jupyter Notebook中展示。交互式计算笔记本适合我那种意识流的学习风格,以及我对笔记的囤积倾向。大多数情况下,代码本身可以移植到你的命令行界面 (CLI) 或集成开发环境 (IDE)。
环境管理 使用 conda 是另一个我建议你探索的主题,但我把它留在了从零到可视化的范围之外,以避免不必要的摩擦,让你继续探索。 每个任务特定的虚拟环境,或者例如沙箱,将你的工作分开,有助于限制包依赖冲突,甚至保持 Python 版本分开,这样你的存档项目在你升级时不会崩溃。
设置环境并不困难,如果你决定不使用你尝试过的包,可以很容易地将其全部删除并重新开始。基本命令可以在 Shell/Terminal 或命令行界面中运行。有关深入指南,请参阅上面的链接。
`conda create –name vizenv`
然后在确认 `y` 以回答是来创建环境后,激活它。
`conda activate vizenv`
无论你决定如何开始,请先设置好,以便最大程度地利用我为你制作的东西。💌
关注我们如何学习
现在你有一些方向,你应该从哪里开始?没有最好的可视化包。在 Python 或 R 中都没有,在更广泛的可视化分析领域中也没有一个适合所有人的工具。重要的是找到适合你需求的工具:在你流程中唾手可得的工具,灵活且足够快以无摩擦地嵌入你的工作流程,并且在 Anaconda 的上下文中,与你依赖的现有编程库集成。
数据科学围绕许多学科展开了一张大网。对于要解决的每个问题,在 Python 生态系统中就有许多围绕数据绘制构建的适合的项目。Anaconda 平台提供了对许多具有可视化和其他成像功能的开源软件项目的访问,但通常作为学生,当我们安装我们的第一个 Python 或 R 发行版时,没有花足够的时间和精力去探索所有包含的可视化数据在常见或独特情况下的选项。这是你再次查看你未使用过的图形库或尝试为特定用例构建的组件的机会,该组件可能在其他领域具有潜力。
学习作为图,而不是线性路径
如果你正在教授可视化,你如何鼓励探索时间?当然,在一个工具中花费足够的时间将概念转换为代码很重要,Matplotlib 和 ggPlot 是很棒的工具。同时学习概念和代码很困难,很多额外的代码切换会减慢你的速度。
但是,对于像 Python 这样的结构一致的解释性语言,从多个项目的接触中学习也是可以实现的。例如,在调试代码时,全面了解项目从上到下的结构、什么是独一无二的、什么是共同的、哪些工具执行某些任务非常出色以及其他工具做得更好的内容非常有价值。这种严谨的好奇心来自于尝试许多包和工具。
“人们很容易通过询问几个科学家来定义科学方法,发现它并不存在。我相信你会发现,没有两个人会完全一致。事实上,没有两个科学家以相同的方式工作和思考。”
Joel Henry Hildebrand (1985) “Science in the Making”,Praeger Pub Text [2,3]
在这里引用一位化学家似乎很奇怪,特别是考虑到线性图的消亡[4],就像他的同名 Benesi–Hildebrand 图一样,在他们的时代非常适合数据。即使他没有被称为“在找到展示数据的直线方式方面的天才”,[3] 即使他的根源和教育不在费城及其周边(我是当地人,偏爱费城),希尔德布兰博士的科学方法和教学在这里仍然值得注意,因为他不断质疑的态度。这正是选择工具时应该具有的审查,而不仅仅是数据。
你是否有一套测试来判断什么是适合你的工具?它是否可以作为你使用的科学计算库的扩展?它会成为混乱数字表格的补救措施吗(或者它是否擅长为更快阅读而对表格信息进行样式化?表格在可视化规范中仍然占有一席之地!如果你在这篇文章中找不到你需要的,你可能会找到构建开源制造商社区角落的想法或模板。毕竟,发明源于需求和质疑的态度。
这篇文章将在 Anaconda Nucleus 上继续。
参考文献
(请继续访问 Anaconda Nucleus 以获取更多资源。)
[1] Dougherty, Jack, Ilyankou, Ilya,“Hands-On Data Visualization: Interactive Storytelling from Spreadsheets to Code, O’Reilly, Apt 4, 2022, https://handsondataviz.org/
[2] Hildebrand, Joel Henry,“Science in the Making”,Praeger Pub Text,March 5, 1985。
[3] Pitzer, K. S.,“Joel henry Hildebrand 1881—1983: A Biographical Memoir by Kenneth S. Pitzer”,National Academy of Sciences, 1993, https://www.nasonline.org/wp-content/uploads/2024/06/hildebrand-joel.pdf
[4] Hibbert, D. Brynn, Thordarson, Pall, The death of the Job plot, transparency, open science and online tools, uncertainty estimation methods and other developments in supramolecular chemistry data analysis, Royal Society of Chemistry, Aug 25, 2016, https://pubs.rsc.org/en/content/articlehtml/2016/cc/c6cc03888c
[9] Various authors,“perception and cognition” articles since 2022 search results, via Google Scholar, accessed May 9, 2022, https://scholar.google.com/scholar?as_ylo=2022&q=%22perception+and+cognition%22
[17] Pohl, Margit, Wallner, G., Kriglstein, S.,“Using lag-sequential analysis for understanding interaction sequences in visualizations”, Science Direct, Aug 11, 2016, https://www.sciencedirect.com/science/article/abs/pii/S1071581916300829
[19] Leetaru, Kalev, Scientific Visualizations For Teaching Used To Mean Plaster Models, Forbes, Apr 20, 2019, https://www.forbes.com/sites/kalevleetaru/2019/04/20/scientific-visualizations-for-teaching-used-to-mean-plaster-models/?sh=23626a1f7ae2
关于作者
Kathryn Hurchla 是一名数据开发人员和设计师,她在 F Λ N T Λ S Y(一家与众不同的设计机构)担任分析主管,致力于塑造人类体验。她拥有数据分析和可视化硕士学位,喜欢构建端到端分析应用程序并撰写关于视觉数据科学的文章。你会发现她迷失在探索性数据分析中。她作为 Plotly Dash 大使,通过领导实践学习以及独立发布内容和与数据可视化协会的夜莺编辑委员会合作,为开源技术社区做出贡献。她自己的企业 Data Design Dimension 有朝一日可能正是她的女儿们需要的东西,可以让她女儿们按照自己的想法创造世界。她的言论不代表她的雇主。
关于 Maker 博客系列
Anaconda 在 每月博客系列 中放大了一些最积极和最受珍视的社区成员的声音。如果你是一名 Maker,一直在寻找一个机会来讲述你的故事,详细阐述你喜欢的项目,教育你的同行,并建立你的个人品牌,请考虑提交摘要。有关更多详细信息并访问大量教育数据科学资源和论坛,请访问 Anaconda Nucleus。