神经辐射场(NeRF)从图像中学习 3D 表示,然后可以渲染 3D 场景,甚至从看不见的角度。该技术还可用于生成逼真的3D对象。然而,在几乎所有情况下,生成的都是静态场景或物体,因为引入运动这一时间维度一直是难以解决的问题。
据Mixed报道,现在,由布法罗大学、苏黎世联邦理工学院、InnoPeak Technology和蒂宾根大学的研究人员组成的团队已经在这方面取得了突破。在一篇研究论文中,他们展示了NeRFPlayer如何表示动态场景,并学习4D表示。
该研究团队将来自不同相机或单个移动相机的 RGB 图像用作输入,例如有人的移动或有人将咖啡倒入玻璃杯中的镜头。为了使场景可学习,团队将动态场景分为三种时态模式:静态区域、变形区域和新区域。例如,在倒咖啡的情况下,放置玻璃的木板保持静止,而玻璃杯内的东西看起来是新加入的,可见的手变形了。分解场将场景划分为上述三个类别,每个区域都由其各自的神经场表示。研究人员还将时间和空间维度解耦,以改善表示。

与其他方法相比,动态场景的分解表示显著减少了视觉伪影。通过NeRFPlayer,该团队还展示了一种以有限比特率实时流式传输所学表示的方法。英伟达的InstantNGP框架允许神经网络在几秒钟内学习千兆像素图像、3D对象和NeRF的表示,这也使所提出的方法变得快速。研究人员在论文中写道:
我们提出了一个框架,用于显示使用多个相机和一个相机拍摄的图像的动态场景。我们的系统中最重要的组件是分解模块和特征流模块。分解模块将场景分解为静态区域、变形区域和新区域。随后,开发一种混合表示来有效地对分解的神经场进行建模。使用多相机和单相机数据集进行的实验验证了我们方法的效率和有效性。
在论文中,研究团队将虚拟现实的“真实4D时空环境”的视觉探索描述为一种愿景,并将他们的工作视为对这一目标的贡献。对此,论文写道:
在VR中自由地对真实的4D空间进行视觉探索是一项长期的任务。当仅使用几个甚至单个RGB相机来捕获动态场景时,这项任务特别有吸引力。
这篇论文的标题为《NeRFPlayer:一种具有分解神经辐射场的流式动态场景表示》(NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields),可在此阅读。