spot_img
首页图像AI谷歌新的图像AI模型...

谷歌新的图像AI模型Parti能更精确地控制生成结果

谷歌最新的图像 AI 模型Parti(Pathways Autoregressive Text-to-Image)允许从更广泛、详细的描述中生成图像,这使其比谷歌不久前推出的AI模型Imagen能更精确地控制结果。

Imagen的图像生成具有与 Open Ai的DALL-E 2 相似的架构,但输入依据的是大型 AI 语言模型——由于具有更高的语言理解能力,因此可以从文本描述获得更好的图像生成结果。新的AI模型Parti尝试使用一种更接近大型语言模型功能的替代架构(自回归),这些语言模型能根据之前的单词和句子或段落的上下文预测合适的新词。Parti将这一原则应用于图像,并取得了成功。

Parti表明,与大型语言模型一样,图像AI通过更全面的训练和更多的参数获得了明显更好的结果。它还可以将长而复杂的文本输入准确地翻译成图像,这表明它可以更好地理解语言和主题之间的关系。

Parti生成的图像分辨率为 256 x 256 像素,然后可以放大到 1024 x 1024 像素。上图显示了四种经过不同级别训练的Parti模型在相同命令提示下生成图像的质量差异。具有200亿参数的最大模型生成了与长文本输入匹配的无错误图像。最大版本的Parti模型甚至可以拼写单词,而DALL-E 2只能生成图像。

“20B模型特别适合于需要世界知识、特定视角或符号书写和表示的抽象任务。”谷歌的研究团队写道。

另外,Parti还可以生成超越培训材料及其主题的出色的图像。研究人员认为,这意味着图像AI能够准确地再现世界知识,以精细的细节和交互组合产生许多主角和对象,并遵循特定的图像格式和风格。

不过,该系统仍然存在诸多问题,例如有意义的比例表示或区分,以及像 DALL-E 2 一样的对图像中的对象计数。

研究团队对模型生成的图像可能包含对人的刻板印象也感到担忧,这也是Imagen 和DALL-E 2 正在努力解决的问题。此外,由于可能会产生逼真的人物图像,因此存在额外的深度伪造风险。出于这个原因,研究团队目前没有公布模型、代码和其他数据。

这个AI模型的名字值得注意:Parti 中的 P 代表 Pathways,这是谷歌的下一代 AI 架构,由谷歌人工智能主管杰夫·迪恩(JeffDean)在2021年底首次引入。Pathways 的目标是一个智能的、多用途的 AI 系统,有朝一日能够泛化“跨越数百万个任务”。Parti 在其名称中包含 Pathway 的事实可能表明它正在接管这个未来架构中的图像部分。另外,Parti 和 Imagen 架构的组合也是可以想象的。

研究团队在网站上展示了Parti 图像的许多其他交互式正面和负面示例,并详细解释了系统的结构。【编译自mixed.de 原文:Matthias Bastian】

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容