spot_img
首页多模态AIAI系统可通过文本指...

AI系统可通过文本指令生成图像,甚至是它从未见过的类别和样式

利用OpenAI的多模态AI模型CLIP,AI 系统StyleGAN-NADA可以通过文本指令生成图像——甚至是它以前从未见过的类别和样式。StyleGAN-NADA 代码可从Github 获得;在下载之前,我们先来看看它是如何做到的。

利用CLIP创建新一代的生成 AI

虽然GAN生成诸如肖像、动物、建筑物或车辆之类的图像,但与许多其他AI系统一样,仅用猫图像训练的GAN系统无法生成狗图像,GAN 必须也“见过”很多狗的图像,然后才能将猫、狗一起画在一张照片上。这个训练原则也适用于风格变化:如果 GAN 要在油画中绘制猫而不是生成逼真的猫图片,它必须首先在油画的特定视觉特征中进行训练。

在今年之前,这几乎是不可动摇的规则。今年初,除了 DALL-E 之外,OpenAI还展示了AI 模型CLIP。CLIP 是多模态的,因为它是用图像和文本训练的。例如,它可以确定标题是否与图像内容匹配。自 CLIP 发布以来,AI研究人员和艺术家一直在试验OpenAI 的图像 AI。有些将图片语言模型与生成网络(例如 Nvidia 的 StyleGAN)相结合——创造了新一代的生成 AI。

StyleCLIP:通过输入文本更改图像细节

特拉维夫大学的研究人员于 2021 年 3 月与 Adobe 合作展示了 StyleCLIP,这是一种以OpenAI的多模态AI 模型CLIP为核心的GAN,可以通过输入文本来控制输出。使用简单的接口,研究人员可以改变一个人的头发颜色,使猫变得可爱,或将老虎变成狮子。然而,StyleCLIP 首先需要样本图像和针对相应领域内的此类变化的额外训练(例如猫图片或人物肖像)。

但是 CLIP 是否也可以控制 GAN,使其在最初训练的域之外生成图像?用猫图像训练的 GAN能生成狗图像吗?

StyleGAN-NADA:更加通用的图像AI

这正是 StyleGAN-NADA主要做的事情。与 StyleCLIP 一样,新系统依赖 Nvidia 的 StyleGAN 进行图像生成,并依赖 CLIP 作为控制机制。名称中的“Nada”暗指不需要的训练数据。

与 StyleCLIP 不同的是,StyleGAN-NADA 网络可以生成图像和样式,而无需在其域外进行额外的训练:逼真肖像中的人变成狼人;素描或绘画能以选定艺术家的风格出现;狗变成熊或狗,长着尼古拉斯·凯奇的脸;教堂的形象成为纽约的城市景观。

而这些GAN没有见过狼人的照片、艺术家的画作、熊、尼古拉斯·凯奇和纽约。这一进展是通过 AI 模型的特殊架构实现的:研究人员一开始依赖于两个能力相同的生成器。生成器神经网络中的权重被冻结并用作第二个生成器的方向,它会调整其权重,直到从满足 CLIP 规范的初始图像创建新图像。

输入用于起始和目标类别,例如“人类”和“狼人”或“狗”和“尼古拉斯·凯奇”。为了提高生成图像的质量,第二个生成器逐层改变其权重。

庞大的模型让人工智能更加灵活

即使所描述的 GAN没有明确看到它们的目标类别或风格也无关紧要,因为OpenAI 已经用大量来自互联网的图像和文本训练了 AI 模型:尼古拉斯·凯奇、特隆、熊、毕加索的画作——所有这些视觉图案都包含在 CLIP数据训练中,并与它们各自的语言术语相关联。

StyleGAN-NADA 使用 CLIP 中包含的视觉图案的综合表示作为其自己专门训练的 GAN 的规范。与其他依赖显式训练图像作为模板的 GAN 系统相比,StyleGAN-NADA 明显更有效。以色列的研究人员写道,这也适用于依赖很少训练数据的变体。

StyleGAN-NADA 是过去两年训练的CLIP 或GPT-3等大型 AI 模型多功能性的另一个例子。由于它们对大量数据进行了广泛的预训练,因此它们可以作为特定 AI 应用程序的基础,然后可以通过相对不太复杂的微调来更快地开发这些应用程序。【编译自mixed.de,原文作者:Maximilian Schreiner】

赞赏
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

2 评论

欢迎订阅我们的内容