例如,从战胜人类最优秀的围棋选手,到最近以前所未有的准确度预测天气,人工智能的进步不断给人带来惊喜。更令人不安的结果是产生了惊人逼真的图像,加剧了真假之间的某种混淆。但是这些图像是如何自动生成的呢?
图像生成模型依赖于深度学习,即可达到数十亿个参数的超大型神经网络。神经网络可以被视为将输入数据与输出预测相关联的函数。该函数由一组最初随机的参数(数值)组成,网络将通过学习来学会修复这些参数。
举个数量级的例子,能够生成逼真图像的稳定扩散模型由 80 亿个参数组成,其训练成本为 60 万美元。
必须学习这些参数。为了解释他们的学习,我们可以看看从图像中检测物体的简单情况。图像作为网络的输入,网络必须预测可能的对象标签(汽车、人、猫等)作为输出。
然后,学习包括找到一个良好的参数组合,以便对图像中存在的物体做出最正确的预测。学习的质量主要取决于标记数据的数量、模型的大小和可用的计算能力。
在图像生成的情况下,它在某种程度上是我们想要做的相反的过程:从描述场景的文本中,模型的输出有望创建与该描述相对应的图像,这比预测标签要复杂得多。
毁灭创造 6z1s40
首先,让我们忘记文本,只关注图像。如果生成图像即使对于人类来说也是一个复杂的过程,那么破坏图像(逆问题)就是一个简单的问题。具体来说,从由像素组成的图像中,随机改变某些像素的颜色是一种简单的改变方法。
我们可以将略微改变的图像作为神经网络的输入,并要求其预测原始图像作为输出。然后我们可以训练模型来学习如何对图像进行去噪,这是图像生成的第一步。因此,如果我们从一张噪声很大的图像开始,并按顺序重复调用模型,那么每次调用时我们都会得到一张噪声越来越小的图像,直到得到一张完全去噪的图像。
如果我们夸大这个过程,那么我们可以从一张完全由噪声(随机像素的雪)组成的图像开始,换句话说,一张什么都没有的图像,然后重复调用我们的“去噪器”模型,以最终得到如下所示的图像:
然后,我们有一个能够生成图像但兴趣有限的过程,因为根据随机噪声,它可以在几次迭代之后最终生成任何东西作为输出图像。因此我们需要一种方法来指导去噪过程,并且文本将用于此任务。
从噪声到图像 5p6c61
对于去噪过程,我们需要图像,这些图像来自互联网并允许我们构成训练数据集。对于指导去噪所需的文本,只需使用在互联网上找到的图像的标题即可。随着学习图像去噪,还关联了一个表示文本的网络。因此,当模型学习对图像进行去噪时,它也会学习与去噪相关的单词。一旦训练完成,我们就会得到一个模型,该模型从描述性文本和总噪声中,通过连续迭代消除噪声,收敛到与文本描述相匹配的图像。
该过程无需专门的手动标记。它以网络上现有的数百万张带有相关说明的图像为素材。最后,一图胜千言,例如,上面的图片是由稳定扩散模型根据以下文本“培根花园里的煎蛋花”生成的。
Christophe Rodrigues ,计算机科学讲师兼研究员, Pôle Léonard de Vinci