spot_img
首页图像AI苹果新AI系统GAU...

苹果新AI系统GAUDI能够由语句生成3D室内场景

Apple新近展示的AI系统GAUDI可以由语句生成3D室内场景,这为新一代生成式 AI 提供了基础。

神经渲染将人工智能带入了计算机图形学,如谷歌依靠神经辐射场 (NeRF)来实现沉浸式视图。NeRF主要被用作3D 模型和 3D 场景的神经存储介质,然后从不同的相机角度进行渲染。这种通过房间或物体周围的摄像机通道的创建方式,也曾针对VR体验进行过实验。2021年底,谷歌展示的Dream Fields(一个将NeRF生成3D视图的能力与OpenAI的CLIP 对图像内容进行评级的能力相结合的AI系统)实现了与文本描述匹配的NeRF。

Dream Fields 虽能生成单个对象,但要将生成 AI 扩展到完全不受限制的 3D 场景仍然是一个未解决的问题。一个原因是摄像机位置的限制:虽然每个有意义的摄像机位置都可以映射到单个物体上,但在3D 场景中,有意义的摄像机位置受到物体和墙壁等障碍物的限制。如果在生成过程中未观察到相应的场景,则不会创建可用的 3D 场景。

Apple 的 GAUDI 模型通过三个专门的网络解决了这个问题:摄像头位置解码器预测可能的摄像头位置,确保输出是对 3D 场景架构有效的位置。而场景的另一个解码器则预测三层表示,提供一种 3D 画布,辐射场解码器在其上使用体积渲染方程绘制后续图像。

通过针对包括内部扫描数据集ARKitScences在内的四个不同数据集的实验,研究人员表明,GAUDI 可以在达到现有方法的质量的同时重建学习视图。Apple还展示了 GAUDI 可以通过 3D 室内场景生成新的跟踪镜头。生成可以是随机的,从源图像开始,也可以通过输入文本使用文本编码器进行控制——例如“穿过走廊”或“上楼梯”。

GAUDI 生成的视频质量虽然较低,并且充满了伪影,但借助 AI 系统,Apple 为可渲染 3D 对象和场景的可控生成 AI 系统奠定了基础。这对于Apple来说,一种可能的应用是为其XR 眼镜生成数字位置。【编译自mixed.de】

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容