人工智能已经涉足文化艺术的方方面面:写诗,回答哲学问题绘画,创作雕塑和音乐……现在,AI研究员扬尼克·基尔彻(Yannic Kilcher)又发掘了AI的另一种能力:由歌曲来生成视频。

在基尔彻发布的视频中,他表演了一首自编歌曲《成为我的鼬鼠》(Be my weasel),而AI系统则生成了与歌词匹配的图像。有些是清晰可辨的现实景象,另一些则是超现实的影像。

歌曲的歌词包含了ImageNet训练数据集中的一系列标签,而AI模型使用该数据集训练过,这是AI能够生成与文本匹配的图像的前提。

基尔彻使用了两个AI模型:OpenAI的CLIP和Deepmind的BigGAN。BigGAN是一个GAN网络,用以生成图像。CLIP则负责评估图像与特定文本的匹配程度。

CLIP的评估被用作对BigGAN模型的反馈,BigGAN模型不断生成新图像,直到CLIP给出文本和生成的图像之间很高的拟合度为止。在为文本的每个部分找到合适的图像后,基尔彻通过BigGAN模型内的网络从一个图像移动到另一个图像(例如,从鼬鼠到猪),并填充所有中间阶段,来制作视频。

BigGAN中的表示形式允许相同歌词具有多种图像变体,基尔彻在他的视频中展示的是第二种变体。通过GAN网络制作连贯视频甚至数字环境是一个活跃的研究领域,基尔彻的实验再次表明人工智能将从根本上改变数字内容的生产。

2 评论