SDFusion 是一个用于生成3D资产的多模态AI框架,可以将图像、文本和3D形状作为输入进行处理,并且可以更好地控制生成过程。
3D资产的生成式AI模型可以极大优化工作流程,或者帮助未经系统学习的用户创建自己的虚拟对象和世界。英伟达首席执行官黄仁勋认为,这种人工智能驱动的创意过程是未来元宇宙的核心。
当前的AI系统一般使用神经渲染方法,如NeRF,它基于不同的视图学习生成3D对象,或通过文本输入来生成,如谷歌的Dreamfusion。其他方法,如CLIP网格,使用扩散模型从文本输入创建网格。
由伊利诺伊大学厄巴纳香槟分校和Snap Research的研究人员组成的团队认为,现有的3D AI模型虽然能提供令人信服的结果,但训练通常很耗时,并且忽略了可用的3D数据。因此,该团队提出了生成模型的协作范式:在3D数据上训练的模型提供详细而准确的几何形状,而基于2D 数据训练的模型则提供外观。

SDFusion就是该团队基于这样的范式开发的。这是一种基于扩散的3D资产生成模型,可以处理多模态输入,如文本、图像或3D形状。3D 对象可以通过生成式 3D 和 2D模型的交互进行额外的纹理处理。
因此,SDFusion 允许用户同时创建具有不完整形状、图像和文本描述的 3D 资产。这样可以更精确地控制生成过程。例如,一张单腿椅子的照片可以与四个数字椅子腿混合,以创建一把有四条腿的椅子。
SDFusion 的扩散模型从 3D 模型中学习,并通过可以处理文本和图像的编码器学习。训练后,团队调节了单个输入(如文本描述、图像或 3D 形状)的相关性,以生成不同的 3D 资产。

测试的结果表明,SDFusion 的性能优于替代方案。“SDFusion 生成的形状具有更好的质量和多样性,同时与输入的部分形状保持一致。”研究人员说,这适用于完成给定形状、单视图3D重建、文本引导生成和多条件生成。
SDFusion尽管取得了良好的结果,但仍有很多地方需要改进。研究人员说,一个可以处理多种3D表示的模型将是可取的,而SDFusion与Nvidia的3D MoMa类似,仅适用于高质量的SDF。他们的另一个研究领域也将是在更复杂的场景中使用SDFusion,例如生成整个3D场景。【编译自The Decoder 原文作者:Maximilian Schreiner】