spot_img
首页视频AIMAV3D:从文本生...

MAV3D:从文本生成动态3D场景,能在3D引擎中实时渲染

在文本和图像之后,生成式AI模型在视频和3D对象的生成方面也不断取得进展:Make-A-VideoImagen Video、Phenaki视频和3DiM、Dreamfusion和MCC等模型便显示了可用的方法,并且产生了一些令人印象深刻的结果。

现在,Meta 又展示了一种将视频和 3D 相结合的方法:Make-A-Video3D (MAV3D)。这一种生成式 AI 模型可从文本描述生成动态的3D场景,且能够在3D引擎中实时运行。

2022年9月,谷歌展示了Dreamfusion,该AI模型以神经辐射场(NeRF)的形式从文本描述中学习3D表示。为此,谷歌将NeRF与大型图像模型Imagen相结合,以生成与文本匹配的图像,作为NeRF的学习信号。

Meta的 MAV3D采用了与Dreamfusion类似的方法:适用于动态场景的NeRF变体(HexPlane)从一系列相机位置生成一系列图像。然后,将这些内容与文本提示一起作为视频传递给视频模型Make-A-video(MAV),后者根据文本提示和其他参数对HexPlane提供的内容进行评分。之后,分数被用作NeRF的学习信号,NeRF调整其参数。在几个过程中,它学习对应于文本的表示。

测试的结果表明这是可行的。例如,MAV3D生成了唱歌的猫、吃冰淇淋的熊猫宝宝和吹萨克斯管的松鼠等3D 表示。目前没有定性可比的模型,但 Meta 显示的结果与文本提示明显匹配。

MAV3D的研究团队表示,学习的HexPlane模型也可以转换为动画网格,然后可以在任何标准3D引擎中实时渲染结果,因此适用于VR或经典视频游戏中的应用。然而,这个过程仍然效率低下,所生成的场景的分辨率也较低,团队正在寻求改进。【编译自The-Decoder】

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容