spot_img
首页多模态AI多模态AI有新进步,...

多模态AI有新进步,Nvidia AI可由短文本生成照片般逼真的风景

多模态人工智能有了新的进步,Nvidia 展示的图像 AI 模型GauGAN 2仅凭短文本即可生成照片般逼真的风景图像。

2019 年春季,Nvidia 研究人员推出了神经 GA 网络 GauGAN,它可以通过简单地将分割的颜色区域放在一起生成逼真的风景。艺术家使用不同的画笔代表特定类别的对象:地面上的一个蓝点变成了湖泊,它的上面变成了天空,几条绿线让森林得以生长,等等。该AI模型能做到这一点,是因为通过使用Flickr照片平台上数百万张风景图片进行训练后,已经对风景照片中各个图像元素之间的关系有了基本的理解。

作为GauGAN的升级版本,GauGAN2无需对景观进行初步绘制,而是纯粹根据文本描述生成风景图像。像“海滩上的日落”这样的描述便产生了“石滩”的景象,而文本的微小变化也会使图像随之变化。

Nvidia将文本输入与 GauGAN 已有的绘画工具相结合:在AI 生成风景之后,可以使用 AI 画笔和其他工具编辑和扩展场景的各个片段。Nvidia称,这种多模态AI还可以生成梦幻般的风景。

据Nvidia介绍,该模型有大约 1 亿个参数,专为生成景观而设置。在选择用于AI 训练的图像时,Nvidia 确保图像中看不到任何人。在不到一个月的时间里,GauGAN2已经接受了 1000 万幅风景图像的训练。

GauGAN2 目前仍然是一个研究项目,其目的是将多种模式——文本、语义分割、草图和样式——合并到一个 AI 模型中。OpenAI(DALL-E)、Alphabet(MUM)等公司也在试验这种多模态 AI 模型,这将引领人工智能应用走向更加灵活的未来。

Nvidia 今年夏天推出了第一个 GauGAN 模型,其应用程序Canvas已作为 RTX 显卡的免费软件提供。GauGAN2集成到Canvas或其他应用程序中应该只是时间问题。

现在,Nvidia已经为 AI 艺术家提供GauGAN 2 交互式浏览演示。“GauGAN2 研究演示表明了为艺术家提供强大成像工具的未来可能性。”Nvidia表示。据说星球大战艺术家 Colie Wertz使用GauGAN生成了梦幻风景的概念图。

赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

1条评论

欢迎订阅我们的内容