spot_img
首页图像AI多模态模型DALL-...

多模态模型DALL-E 2为AI艺术带来新的成就和可能性

借助 DALL-E 2,OpenAI 为 AI 艺术带来了新的成就和可能性。这一多模态AI模型能生成富有创造性的图像,还能够改变现有图像的风格。只要输入一句描述性话语即可生成细节丰富的图像,更生动、更详细的话语效果更好。

DALL-E 2的前身DALL-E由OpenAI 于2021年1月推出,已经可以通过输入文本来生成图像,然后由并行开发的CLIP 模型按质量排序,并择优。在随后的几个月里,该模型引发了一系列实验,其中CLIP与 Nvidia 的 StyleGAN 相结合,还可以根据文本描述更改图像。

2021 年 12 月,OpenAI 推出GLIDE,这是一种使用所谓扩散模型的多模式模型。扩散模型在训练过程中逐渐向图像添加噪声,然后学会逆转这个过程。经过训练后,该模型可以从纯噪声中生成训练过程中看到的物体的任何图像。

GLIDE 的效果超过了 DALL-E,也优于其他模型。然而,与 DALL-E 不同的是,GLIDE 不依赖 CLIP,而相应的结合了 CLIP 和 GLIDE 的原型未能达到没有 CLIP 的 GLIDE 的质量。

OpenAI近日展示的DALL-E2,依赖于GLIDE风格的扩展扩散模型,但将其与CLIP相结合。CLIP不是从文本描述生成图像,而是通过图像嵌入——一种数字图像表示。然后,扩散解码器根据该表示生成图像。这是 DALL-E 2 与其前身的不同之处,后者专门使用 CLIP 过滤生成的结果。生成的图像再次令人惊讶:超越了 DALL-E 和 GLIDE 的结果。

CLIP 在 DALL-E 2 中的集成也让 OpenAI 可以更精确地控制文本生成的图像。某些元素可以添加到图像中,例如游泳池中的火烈鸟游泳圈或图像中的柯基犬。

特别令人印象深刻的是 DALL-E 2 能够根据当前环境调整生成:新添加的柯基犬能适合各自的绘画风格,或者如果它坐在前景的长凳上,它就会变得逼真。【编译自mixed.de】

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

1条评论

欢迎订阅我们的内容