spot_img
首页视频AIAI模型Transf...

AI模型Transframer能从一张图像生成30秒的视频

DALL-E 2等人工智能系统能由一种视角的图像生成多种视角的变体,甚至更改原始图像的内容。最近,谷歌姊妹公司 Deepmind展示的AI 模型Transframer又进了一步:从一张图片即可生成30 秒的视频。

Transframer 是一个视觉预测框架,可以解决八种图像建模和处理任务,例如深度估计、实例分割、对象检测和视频预测。该模型使用一系列带有相关注释的上下文图像进行了训练,因此能基于此处理对图像进行查询。

除了深度估计和物体识别等经典图像任务外,Transframer 还掌握了物体新视角的合成和视频序列的预测。

在一条简短的推文中,Deepmind 展示了 Transframer 从单个输入图像中构想出来的6 个 约30秒的视频。尽管分辨率低,但可以看到一定的一致性。

根据 Deepmind 的说法,这表明像 Transframer 这样的框架适用于要求苛刻的图像和视频建模任务。研究人员称,转帧器还可以作为多任务处理者,解决以前使用专门模型的图像和视频分析问题。

收藏 (0)
请先

还没有账户?注册

赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容