spot_img
首页视频AI将视频转化为3D体验...

将视频转化为3D体验,Facebook发布大型3D数据集和3D重建AI模型

使用人工智能从照片和视频重建 3D 对象,可用来创建 AR 和 VR 应用程序,或快速制作游戏和电影的 3D 模型。除此之外,还有更大的潜力:如果简单的视频在智能手机或 AR 和VR 眼镜上能变成照片般逼真的 3D 重建,人们将拥有一种全新的方式来存储和传递经验和记忆。为了推进 3D 重建的研发,Facebook 刚刚发布了一个名为“Common Objects in 3D” (CO3D)的大型 3D 数据集,并推出了将视频记录转换为 3D 重建的 AI 模型NeRFormer。

打造有关3D 记忆的杀手级应用,是Facebook通过XR 投资追求的主要目标之一。马克·扎克伯格曾说:“有一天,我们可以捕捉整个经历并与其他人分享。”如果有了这样的应用,那么用户即可在平台上分享照片般逼真的 3D 体验。随着这一想法的发展,Facebook 对 3D 重建方法的兴趣也相应地很高。

根据 Facebook 的说法,当前的 3D 重建方法需要显示真实物体及其精确 3D 复制品的视频的数据集。研究人员称,人工智能重建方法至今未能取得重大进展,正是因为缺少这样的综合数据集。在某些情况下,研究人员不得不依赖来自数字 3D 模型的数据集,但这些合成数据无法替代AI 算法所要求的真实记录。

数据集CO3D(可在 GitHub 上获得)旨在填补这一空白。这一庞大的数据集包含来自常用 MS-COCO 图像数据集的 50 个对象类别的 19,000 个真实视频,包括花瓶、手提包、滑板、泰迪熊、烤面包机等人们喜欢在社交媒体上分享照片或视频的日常物品。

CO3D从不同的摄像机角度处理了总共数万个物体的 150 万张图像。所有记录都来自 Facebook 通过亚马逊的 Mechanical Turk 的智能手机摄像头收集的数据。对于记录的 3D 重建,Facebook 研究人员随后使用了非常精确且计算密集型的方法,例如点云。

随着 CO3D 数据集的发布,Facebook 还推出了NeRFormer,这是一种将视频记录转换为 3D 重建的 AI 模型。在训练过程中,NeRFormer 学习了一个神经辐射场(NeRF),它代表了物体的几何形状和表面。渲染由转换器模块执行,该转换器模块可以根据视频内容预测辐射场的属性,并从辐射场导出新的视角。

Facebook 称,这种方法使 NeRFormer 能够学习某些对象类别之间的相似性,并仅使用少量可用视图来呈现未知对象的新角度。与其他方法相比,NeRFormer 应该可以更快、更高质量地生成 3D 模型。

赞赏
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容