用于文本、图像、音频、视频和 3D 的生成式人工智能系统的研发今年来取得了重大进展,以至于被硅谷的风险投资家红杉资本视为计算革命的先锋。革命正在深入。通过图像AI工具Stable Diffusion,最近由 AI 图像合成开发者、爱好者和艺术家组成的团队Deforum演示了人工智能用于创建VR场景的未来。
Deforum的开发人员将 Stable Diffusion 与编程语言 Touchdesigner 相结合起来使用,以生成“实时沉浸式潜在空间”。据介绍,用户可以在Stable Diffusion生成的VR世界中自由移动。除了 Stable Diffusion,开发者还使用了另一个 AI 系统——英特尔的 Midas模型——来负责环境的 3D 显示。Midas可以从单个图像计算 3D 深度,然后将Stable Diffusion图像投影上去。
演示是实时运行的,需要强大的计算能力。Midas模型在Stable Diffusion的每幅图像上以给定的速率连续运行。为了减少工作量,系统只渲染视野中的图像部分,而不是完整的360度环境。在演示中,每个视角都呈现相同的图像,因此还不支持立体3D,但开发人员称,这“肯定会得到改进”。
“Stable Diffusion的速度目前正在迅速提高,但我们仍需要改进。”开发人员说。进一步的改进已在进行中。
与之同时,VR先锋约翰·卡马克(John Carmack)在 Twitter 上表示,他的梦想是从“以前录制的每一部电影或视频”自动生成 3D 摄影测量世界。卡马克曾担任Oculus 首席技术官,现已投身人工智能开发,对VR和AI这两种技术都非常了解。
虽然仍然存在诸多技术挑战,特别是在几何方面,例如合并不同的相机位置,但卡马克说,他觉得“我们正处于解决一切问题的神经模型的门槛前”。卡马克的愿景是创建一个生成性AI系统,能基于给定视频来创建3D世界。“我相信它已经在进行实验了,但当它离开实验室时,会像Stable Diffusion的情况一样,将非常棒。”他说。