例如，从战胜人类最优秀的围棋选手，到最近以前所未有的准确度预测天气，人工智能的进步不断给人带来惊喜。更令人不安的结果是产生了惊人逼真的图像，加剧了真假之间的某种混淆。但是这些图像是如何自动生成的呢？

图像生成模型依赖于深度学习，即可达到数十亿个参数的超大型神经网络。神经网络可以被视为将输入数据与输出预测相关联的函数。该函数由一组最初随机的参数（数值）组成，网络将通过学习来学会修复这些参数。

举个数量级的例子，能够生成逼真图像的稳定扩散模型由 80 亿个参数组成，其训练成本为 60 万美元。

必须学习这些参数。为了解释他们的学习，我们可以看看从图像中检测物体的简单情况。图像作为网络的输入，网络必须预测可能的对象标签（汽车、人、猫等）作为输出。

然后，学习包括找到一个良好的参数组合，以便对图像中存在的物体做出最正确的预测。学习的质量主要取决于标记数据的数量、模型的大小和可用的计算能力。

在图像生成的情况下，它在某种程度上是我们想要做的相反的过程：从描述场景的文本中，模型的输出有望创建与该描述相对应的图像，这比预测标签要复杂得多。

毁灭创造 6z1s40

首先，让我们忘记文本，只关注图像。如果生成图像即使对于人类来说也是一个复杂的过程，那么破坏图像（逆问题）就是一个简单的问题。具体来说，从由像素组成的图像中，随机改变某些像素的颜色是一种简单的改变方法。

我们可以将略微改变的图像作为神经网络的输入，并要求其预测原始图像作为输出。然后我们可以训练模型来学习如何对图像进行去噪，这是图像生成的第一步。因此，如果我们从一张噪声很大的图像开始，并按顺序重复调用模型，那么每次调用时我们都会得到一张噪声越来越小的图像，直到得到一张完全去噪的图像。

如果我们夸大这个过程，那么我们可以从一张完全由噪声（随机像素的雪）组成的图像开始，换句话说，一张什么都没有的图像，然后重复调用我们的“去噪器”模型，以最终得到如下所示的图像：

然后，我们有一个能够生成图像但兴趣有限的过程，因为根据随机噪声，它可以在几次迭代之后最终生成任何东西作为输出图像。因此我们需要一种方法来指导去噪过程，并且文本将用于此任务。

从噪声到图像 5p6c61

对于去噪过程，我们需要图像，这些图像来自互联网并允许我们构成训练数据集。对于指导去噪所需的文本，只需使用在互联网上找到的图像的标题即可。随着学习图像去噪，还关联了一个表示文本的网络。因此，当模型学习对图像进行去噪时，它也会学习与去噪相关的单词。一旦训练完成，我们就会得到一个模型，该模型从描述性文本和总噪声中，通过连续迭代消除噪声，收敛到与文本描述相匹配的图像。

该过程无需专门的手动标记。它以网络上现有的数百万张带有相关说明的图像为素材。最后，一图胜千言，例如，上面的图片是由稳定扩散模型根据以下文本“培根花园里的煎蛋花”生成的。

Christophe Rodrigues ，计算机科学讲师兼研究员， Pôle Léonard de Vinci

本文根据知识共享许可从《对话》杂志转载。阅读原文。

The Conversation

Generate

人工智能如何生成图像？ 716f1p

毁灭创造 6z1s40

从噪声到图像 5p6c61

欢迎来到 ArtMajeur！ 1u1v64