现在您可能已经听说过 Stability AI 的 稳定扩散,这是一个基于描述性文本提示生成图像的文本到图像机器学习 (ML) 模型(有关更多技术细节,请参阅其官方 GitHub 存储库)。我第一次在一次会议上尝试了稳定扩散。我和朋友们玩得很开心,试图将我们的会议经历变成图像。抛开笑声和笑话不谈,我很快意识到,虽然很容易生成一张图片,比如显示我的男性朋友在一个酒吧里喝一杯啤酒,但要生成一张我自己作为女性开发者的图片就难多了。事实上,几乎不可能让模型显示任何女性 Python 开发人员,除非在提示中明确指定“女性”。
这种经历并没有让我感到震惊,因为女性开发者在科技界是一个少数群体。但是,我对模型中这种代表性不足感到担忧。它会加剧一个自我实现的循环,强化性别偏见,从而对我们社区为鼓励多样性和包容性所做的努力产生反作用吗?让我们仔细看看模型中隐藏的偏见和刻板印象。
性别刻板印象
如前所述,我遇到的第一种偏见是性别刻板印象。如果我输入“在飞机上工作的空乘人员”作为提示,大多数结果都会显示年轻、穿着制服的女性在飞机上微笑。那么所有的男性空乘人员呢?我经常旅行,可以确认男性空乘人员非常普遍。
另一方面,你可以猜到如果我输入“修理汽车的机械师”,结果会是什么样子。他们会以年轻男性为机械师。然而,即使是快速谷歌搜索,也产生了一些女性机械师的图像。图片库还提供了一些试图打破性别刻板印象的图像,其中修理汽车的机械师是女性。
请注意,我特意选择这些例子进行测试,因为这些职业在历史上与特定性别相关联。虽然社会正在努力打破这些刻板印象,而且这些传统联系正变得越来越不准确,但我们仍然在该模型和其他模型中看到很多偏见。
多元文化代表性(或缺乏代表性)
我试图生成一张瑞典肉丸的图像,瑞典肉丸通常搭配越橘酱一起食用。您可能曾在宜家尝试过?我从我在 PyCon 瑞典 参加的一次主题演讲中得到了这个想法,其中 Julien Simon 在类似的尝试中发表了讲话。所有生成的图片都显示肉丸坐在果酱中,就好像果酱是番茄酱一样,就像意大利肉丸的配菜一样。令我惊讶的是,该模型似乎认为肉丸只能以一种特定方式供应。如果稳定扩散只是一个人的话,我可以带它去宜家尝尝瑞典肉丸。
接下来,我尝试了一些更奇怪的东西。我要求稳定扩散生成澳大利亚圣诞市场的图像。你明白我的意思吧?在一些图片中,你可以看到人们穿着厚厚的衣服,树木光秃秃的——有些甚至覆盖着雪。但众所周知,圣诞节是在澳大利亚的夏季。也许这些图片是为了展示在寒冷的月份举行的市场?否则,该模型似乎认为圣诞节必须总是在冬天,但这并非普遍真理。
缺乏直接指定时的代表性
稳定扩散似乎很难生成显示历史上代表性不足的群体结果,除非在提示中提供具体说明。回想一下我向您展示的第一张图片,我在其中输入了“Python 开发人员在闲逛”——并非我所有的 Python 开发人员朋友都看起来像或被认定为白人男性!所以让我们尝试其他东西。
如果在提示中,我用“PyLadies”替换“Python”一词,它指的是 一个为边缘化性别提供 Python 指导的国际组织,该组织倡导多样性,现在我们会在图片中看到女性。但是这些图像仍然不能反映我在比如 PyCon 加纳的经历。如果我更具体一些呢?
最后,这些图像展示了更好、更准确的代表性。但正如您所见,您必须在提示中非常具体,才能让稳定扩散生成代表性的内容。这令人担忧,因为它会加剧代表性不足的问题。
如何解决?
我对这个问题的诚实答案是“我不知道”。“修复”一个经过许多研究人员的大量努力训练出来的模型并不容易。有些人可能会建议为其提供更多样化的数据,有些人可能会建议微调模型中的权重。但是,第一步是认识到问题并希望解决它。我们 ML 和 AI 爱好者必须意识到这些刻板印象和代表性不足的问题,以及如果广泛采用有偏见的技术,它可能产生的影响。然后,我们可以共同努力寻找解决方案。
🔎 探索类似内容 🔎
- 观看 Albert DeFusco 解释如何使用 Anaconda 在 CPU 上运行稳定扩散 这里。
- 阅读 Sophia Yang 关于 ChatGPT 的能力和局限性的博文 这里。
- 在 12 月 15 日星期四加入 Peter Wang 参加关于 ChatGPT 和其他大型语言模型的变革力量的现场研讨会和探索性讨论。注册 这里。
关于作者
何卓婷是 Anaconda 的开发者倡导者。在她之前的数据科学家职位中,她利用了她先进的数值和编程技能,尤其是在 Python 方面。何卓婷为 Hypothesis 和 pandas 等多个开源库做出了贡献,并且经常在大学和会议上发表演讲。她曾组织过包括 EuroPython(她是董事会成员)、PyData Global 和 Pyjamas 在内的会议。2021 年,何卓婷成为 Python 软件基金会成员。