OpenAI 研发的新 AI 模型 GLIDE 通过输入文本生成图像的结果优于其他知名AI模型——包括 OpenAI自己的DALL-E。
今年初,OpenAI推出了多模态AI模型DALL-E。该模型经过图像和文本数据进行训练,因此可以生成适合文本输入的图像。然后,OpenAI 使用多模态 AI模型CLIP按质量对生成的图像进行排序。在这一年中,人工智能研究人员将 CLIP 与Deepfake 技术 GAN(生成对抗网络)结合使用,创建了令人印象深刻的AI系统,这些系统可以通过文本输入生成或修改图像。
2月,OpenAI 发表了一篇论文,介绍了研究团队首次使用新的网络架构在图像生成方面取得了优异的成绩。这一新的网络架构基于扩散模型(Diffusion Models)而非典型的 GAN构建。这些 AI 模型在训练时逐渐向图像添加噪声,然后学习逆转这个过程。在训练之后,扩散模型可以理想地生成任何图像,其中包含训练期间从纯噪声中看到的对象。

5 月,OpenAI 使用扩散模型的图像结果首次超过了GAN的图像质量。在最近披露的一项研究成果中,OpenAI 的一个团队展示了带有文本控制的扩散模型如何将 DALL-E 和其他模型抛在后面。
GLIDE 代表“用于生成和编辑的引导语言到图像的扩散”,顾名思义,它可以使用仅基于文本输入的扩散模型来生成和编辑图像。该AI 模型是用图像及其说明训练的。团队还尝试了集成 CLIP。然而,与通过 CLIP 进行额外AI质量控制的情况相比,第一个变体独立学习从文本生成图像即产生了更好的结果。
GLIDE 还可以更改图像:用户在图像上标记他们想要更改的点,然后在文本中描述更改。然后 GLIDE 会自动调整图像。

所有图像均由一个 35 亿参数的大网络生成,分辨率为 64 x 64 像素,并由一个15亿参数网络外推到 256 x 256 个像素。在一项测试中,人们对 GLIDE 的结果的评价明显优于 DALL-E 或其他网络的结果。GLIDE 不会为某些文本条目提供任何结果,例如,如果要生成带有方形轮子的汽车。
OpenAI 尚未公布大型 GLIDE 模型。不过,有一个更小的3亿参数的 GLIDE 变体是免费提供的。出于安全原因,该团队还使用高度过滤的数据集训练了已发布的 AI 模型。例如,小型 GLIDE 变体无法生成人物图像。【编译自mixed】