spot_img
首页视频AI神经渲染有新突破,H...

神经渲染有新突破,HumanNeRF能从视频中渲染出3D人物

神经渲染有望用人工智能扩展甚至取代久经考验的 3D 渲染过程。NeRF(神经辐射场)是其中的一种方法,这是一种小型神经网络,可以从 2D 照片中学习 3D 表示,然后进行渲染。最近,这方面的研究又有了新的突破:华盛顿大学和谷歌的研究人员展示的HumanNeRF,从一个简单的 YouTube 视频即能合成人的 3D 视图。

此前,NeRF的一些变体已经可以在几秒钟内学习和渲染复杂的 3D 表示。例如,在今年的 GTC 上,Nvidia展示的Instant NeRF,比旧方法快 1000 倍。

Nvidia 图形研究副总裁 David Luebke 将 NeRF 与用于 2D 摄影的 JPEG 压缩进行了比较: “如果可以将传统的 3D 表示与矢量图像进行比较,那么 NeRF 就像位图图像。它们捕捉到光是如何从物体或场景中辐射出来的。”Luebke表示,这可以“大幅提高录制和共享 3D 的速度、便利性和范围”。

NeRF最初由谷歌与加州大学伯克利分校和加州大学圣地亚哥分校的科学家合作开发。此后,谷歌展示了 AI 渲染的街区,借助 Mip-NeRF 360,可以实现街景 3D和真实世界对象的逼真 3D 渲染。在今年的I/O 2022 开发者大会上,谷歌展示了使用了神经渲染方法的 Immersive View,这是一种大城市的合成 3D 透视图和餐厅等内部视图。

新的HumanNeRF方法解决了用 NeRF 表示人的两个问题:到目前为止,神经网络主要处理静态对象并依赖于多个角度的摄像机记录。另外,HumanNeRF 可以从以前看不见的角度展示移动的人,包括他们衣服的抖动——所有这一切都通过单一摄像机视角的训练材料进行。因此,NeRF也可以通过 YouTube 视频进行训练。

HumanNeRF 依赖于几个网络,这些网络在所谓的T姿势中学习人的规范表示,以及所谓的运动场,它学习刚性骨骼运动和非刚性运动,如服装的抖动。此外,还使用一个简单的网络记录被拍摄者的姿势,以进行姿势估计。

运动场和姿势估计的学习信息可以根据视频中显示的姿势修改学习的正则表示,然后通过NeRF进行渲染。因此,与以前的方法相比,该方法可得到更逼真的3D表示:渲染的人物更详细,衣服的抖动更清晰可见。

通过几个例子,研究人员表明,单摄像机角度足以进行3D渲染,例如YouTube视频。HumanNeRF还可以在训练后从相反的角度显示整个学习场景,这尤其具有挑战性,因为在训练过程中没有一个渲染像素可见。不过,研究人员也指出,由于没有考虑运动场中的时间连贯性,在不同姿势之间的转换过程中,缺少细节和明显的抖动。

经过一些改进和降低计算要求,该技术将可以达到最终用户,并为谷歌未来的AR提供另一个构建块,这在今年的 I/O 上有明确的描述。

专栏
赞赏
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容