2022年12月15日

稳定扩散 (Stable Diffusion)：为什么多样化的结果如此难以获得？

Cheuk Ting Ho

4分钟

到目前为止，您可能已经听说过 Stability AI 的稳定扩散 (Stable Diffusion)，这是一种文本到图像的机器学习 (ML) 模型，它根据描述性文本提示生成图像（有关更多技术细节，请参阅其官方 GitHub 仓库）。我第一次尝试稳定扩散是在一次会议期间。我的朋友和我玩得很开心，试图将我们的会议经历变成图像。抛开笑声和玩笑，我很快意识到，虽然很容易生成一张显示，例如，一位男性朋友在酒吧喝品脱啤酒的照片，但要生成一张我作为女性开发者的照片却要困难得多。事实上，如果不提示“女性”，模型几乎不可能显示任何女性 Python 开发者。

这种经历并没有让我感到震惊，因为女性开发者在科技界是少数群体。但是，我担心模型中存在的这种代表性不足现象。它是否会使性别偏见永久化，从而对我们社区为鼓励多元化和包容性所做的努力产生反作用？让我们仔细看看模型中隐藏的偏见和刻板印象。

性别刻板印象

如前所述，我遇到的第一种偏见是性别刻板印象。如果我输入“在飞机上工作的空乘人员”作为提示，大多数结果都显示年轻、穿着制服的女性在飞机上微笑。那么所有的男性空乘人员呢？我旅行了很多，可以肯定男性空乘人员非常常见。

另一方面，您可以猜到如果我输入“修理汽车的机械师”结果会是什么样子。它们以年轻男性作为机械师。然而，即使是快速的 Google 搜索也会产生一些女性机械师的图像。图片素材网站也提供试图打破性别刻板印象的图像，其中修理汽车的机械师是女性。

请注意，我专门选择这些例子进行测试，因为这些职业在历史上与特定性别相关联。虽然社会各界都在努力打破这些刻板印象，并且这些传统关联正变得越来越不准确，但我们仍然在这个模型和其他模型中看到了很多偏见。

多元文化代表性（或缺乏）

我尝试生成瑞典肉丸的图像，瑞典肉丸通常与越橘果酱一起食用。也许您在宜家尝试过？我的这个想法来自我在 PyCon 瑞典参加的主题演讲，Julien Simon 在演讲中谈到了类似的尝试。所有生成的图片都显示肉丸浸在果酱中，就好像果酱是番茄酱一样，就像意大利肉丸的配菜一样。我感到惊讶的是，该模型似乎认为肉丸只能以一种特定的方式食用。如果稳定扩散是一个人，我就能带它去宜家尝尝瑞典肉丸。

接下来，我尝试了一些更古怪的东西。我要求稳定扩散生成澳大利亚圣诞市场的图像。您明白我的意思了吧？在一些图片中，您可以看到人们裹着厚厚的衣服，树木光秃秃的——有些甚至覆盖着积雪。但正如我们都知道的，圣诞节在澳大利亚是在夏季。也许这些图片旨在展示在较冷月份举行的市场？否则，似乎模型认为圣诞节必须总是在冬天举行，但这并非普遍适用。

缺乏在没有直接指定情况下的代表性

稳定扩散似乎很难生成显示历史上代表性不足的人群的结果，除非在提示中提供具体说明。回想一下我给您看的第一张照片，我输入了“Python 开发者聚会”——并非我所有的 Python 开发者朋友都看起来像或自认为是白人男性！所以让我们尝试一些其他的东西

如果在提示中，我将术语“Python”替换为“PyLadies”，它指的是一个国际 Python 指导小组，面向边缘化性别，倡导多元化，现在我们在图片中看到了女性。但这些图像仍然没有反映我在比如 PyCon 加纳的经历。如果我更具体呢？

最终，图像展示了更好、更准确的代表性。但正如您所看到的，您必须在提示中非常具体，稳定扩散才能生成具有这种代表性的东西。这令人担忧，因为它使代表性不足的问题长期存在。

解决方案是什么？

我对这个问题的诚实回答是“我不知道。” “修复”一个通过众多研究人员的巨大努力训练出来的模型并非易事。有些人可能会建议为其提供更多样化的数据，有些人可能会建议微调模型中的权重。然而，第一步是认识到问题并想要解决它。我们 ML 和 AI 爱好者必须意识到这些刻板印象和代表性不足的问题，以及如果存在偏见的技术被广泛采用可能产生的影响。然后，我们可以共同努力寻找解决方案。

🔎 探索类似内容 🔎

在这里观看 Albert DeFusco 讲解如何使用 Anaconda 在 CPU 上运行稳定扩散：here。
在这里阅读 Sophia Yang 关于 ChatGPT 的能力和局限性的博客文章：here。
加入 Peter Wang 于 12 月 15 日星期四举行的现场研讨会和探索性讨论，主题是 ChatGPT 和其他大型语言模型的变革力量。在此注册：here。

关于作者

Cheuk Ting Ho 是 Anaconda 的开发者倡导者。在她之前的作为数据科学家的角色中，她利用了她先进的数值和编程技能，尤其是在 Python 方面。Cheuk 为多个开源库做出贡献，例如 Hypothesis 和 pandas，并且经常在大学和会议上发表演讲。她组织过包括 EuroPython（她是董事会成员）、PyData Global 和 Pyjamas 在内的会议。2021 年，Cheuk 成为 Python 软件基金会研究员。

您可能也对以下内容感兴趣

咨询专家

与我们的专家之一交谈，为您的 AI 之旅找到解决方案。

咨询专家

稳定扩散 (Stable Diffusion)：为什么多样化的结果如此难以获得？

Anaconda 不受 PyTorch 安全事件影响

Shackleton 项目：用于卫星图像实时路由的开源仪表板

为 conda 引入新的插件机制

咨询专家