运动中的人类新视图合成是一个极具挑战性的计算机视觉问题。


(相关资料图)

以往的2D图片转三维模型都是在静态的情况下,但如果输入的是一段人类运动的视频,该如何生成自由视角的视频?

如果这个问题解决了,那就可以在AR/VR应用中的自动化实现虚拟化身建模。

现有的一些研究工作通常需要复杂的任务设置,包括多个输入视频、三维监督或预训练模型,这些苛刻的要求都限制了模型的泛化性,无法很好地推广到新用户的输入上。

为了解决这些局限性,Meta提出了一个新视图合成框架HVS-Net,可以从任意人类的未见视图中生成逼真的渲染。视图的捕获过程只需要一个具有稀疏RGB-D的单视图传感器,类似于一个低成本的深度相机。

论文中提出了一个架构来学习基于球体(sphere-based)的神经渲染所获得的新视图中的稠密特征,并使用全局上下文绘画模型来创建完整的渲染图。

此外还包括一个增强网络(enhancernetwork)利用整体保真度,甚至在原始视图的遮挡区域,产生具有精细细节的清晰渲染。

实验结果显示,该方法在单一稀疏的RGB-D输入的情况下仍然可以生成高质量的合成和真实人类的新视图,并且能够泛化到未见过的新人物、新的姿势并忠实地重建面部表情。

该方法不仅优于先前的人类视图合成方法,而且对不同稀疏度的输入都具有鲁棒性。

一键生成虚拟化身

刚性物体(rigidobjects)或动态场景的新视图合成是最近非常活跃的研究课题,在各种任务中都取得了极大的性能提升。

但对运动中的人类的新视图进行合成需要处理具有各种变形的动态场景的方法,特别是在那些具有精细细节的区域,如面部或衣服。

除此之外,常见的动态合成模型通常依赖于多视图输入,需要多个相机拍照,更多的相机参数,推理时间也很长(每帧可能需要几分钟)。

推荐内容