在OpenAI计划于今年夏天将DALL-E 2作为产品向更广泛的用户群体提供之际,谷歌也推出了一个由文本指令生成图像的AI模型,名为Imagen。谷歌的研究人员称,Imagen 在精度和质量方面优于 DALL-E 2,但当前仅供科学工作者使用。
Imagen 依赖于一个大型的、预训练的Transformer 语言模型 (T5),它生成数字图像表示(图像嵌入),然后由扩散模型从中创建图像。扩散模型会在训练过程中看到逐渐变得嘈杂的图像。训练后,模型可以逆转这一过程,即从噪声中生成图像。
低分辨率原始图像(64 x 64)通过 AI 放大到 1024 x 1024 像素,这与 DALL-E 2 相同。且与Nvidia DLSS类似,AI缩放会为生成的原始图像添加新的、内容适当的细节,因此它还可以在目标分辨率中提供高清晰度。通过这个放大过程,Imagen 可节省大量的计算能力,如果模型要直接输出高分辨率图像,这是必要的。

谷歌AI团队的一个关键发现是:大型预先训练的语言模型对后续图像合成的文本编码“出人意料地有效”。此外,对于更逼真的图像生成,增强语言模型比通过更广泛的训练来创建实际图像的扩散模型具有更好的效果。
研究团队开发了DrawBench 基准,然后在该基准中对生成的图像的质量以及图像与输入文本的匹配程度进行评估,同时比较多个系统的并行输出。结果表明,Imagen的表现明显优于DALL-E 2。研究人员将这归因于文本模型更高的语言理解能力。在大多数情况下,图像可以将“制作拿铁艺术的熊猫”的指示转化为适当的图像:熊猫将牛奶完美地倒入一杯咖啡中。而DALL-E 2 生成则是奶泡中的熊猫脸。

Imagen 在使用COCO(上下文中的公共对象)数据集的基准测试中也取得了新的最佳值(7.27),表现优于 DALL-E(17.89)和 DALL-E 2(10.39)。这三个图像模型之前都没有使用 Coco 数据进行过训练。只有Meta 的“Make-A-Scene”(7.55)与 Imagen 的表现相当,但 Meta 的图像 AI 是用 Coco 数据训练的。
由于底层文本模型包含“社会扭曲和限制”,Imagen 可能会产生“有害的刻板印象”。此外,Imagen目前在生成带有人的图像方面存在“重大限制”。因此,谷歌不想在“没有进一步保护措施的情况下”发布 Imagen 或类似技术。

DALL -E 2 也有这些问题。因此,OpenAI 起初只供每月1000 名测试人员使用。不过,最近的统计表明,在DALL -E 2所生成的300多万幅图像中,只有0.05%违反了内容准则。尽管如此,OpenAI仍然很谨慎,打算仅增加少量新用户(每周 1,000 个)。
谷歌AI 的高级 AI 研究员 Jeff Dean 看到了 AI 在培养人机协作创造力方面的潜力。显然,Imagen 体现了谷歌所遵循的方向。