谷歌将其大型AI图像模型Imagen与NeRF(神经辐射场)的3D功能相结合在一起,形成了Dreamfusion。正如它的名称所表明的那样,这是一次梦幻般的融合。哲学家怀特海说,一切创新性创造即是融合。Dreamfusion的创新性是直接从文本生成3D模型。
具体地说,Dreamfusion是Dream Fields的进化,Dream Fields是谷歌于2021年底推出的一种生成性3D人工智能系统。通过Dream Fields,谷歌将OpenAI的图像分析模型CLIP与NeRF方法相结合,从而允许神经网络存储3D模型。Dream Fields利用NeRF生成3D视图的能力,并将其与CLIP评估图像内容的能力相结合。而Dreamfusion则是对这种方法继续开发的结果。
另外,Dreamfusion基于谷歌预先训练的2D文本图像扩散模型Images,支持文本的3D合成。在Dreamfusion中,谷歌用新开发的基于图像的评估模型取代了OpenAI的CLIP,后者也可用于3D创建。谷歌称,它可以“为预先训练的扩散模型提供许多新的应用程序”。
这样,3D生成不需要使用无法达到所需程度的3D数据进行训练。Dreamfusion从不同角度的2D图像中学习3D表示。为此,研究团队使用了包含“前”或“后”的视觉相关提示,过程是自动的。
与Dream Fields相比,Dreamfusion通过文本提示生成高质量、深度和普通的背光3D对象。使用Dreamfusion生成的多个3D模型也可以缝合到一个场景中。“我们的方法不需要3D训练数据,也不需要改变图像扩散模型,这证明了预先训练的图像扩散模型的有效性。”谷歌的研究团队写道。
生成的NeRF模型可以使用Marching Cubes算法导出到网格,然后集成到通用3D渲染器或建模软件中。 “我们期待着将我们的方法与开源模型联系起来,为3D生成创造新的未来。”谷歌大脑研究员本·普尔(Ben Poole)在Twitter上写道。