2D图片“脑补”3D 这次真的只用一张图就行了
只需随机给AI提供一张照片,它就可以从不同角度为您生成“新视图”:
不仅如此360有学位的椅子和汽车,甚至人脸,也玩了新把戏,可以从“死亡自拍”的角度到底图生成:
更有趣的是,这个名为pix2nerf的人工智能与训练数据集有点“不同”。它可以学习在没有3D数据、多视角或相机参数的情况下生成新的视角。
可以说,它将nerf系列的人工智能推向了一个新的高度。
使用Gan+自动编码器学习“健脑”
在此之前,nerf可以通过多视图训练AI模型,使其学会从新视角生成3D对象照片。
然而,这也导致了一系列使用nerf方法的模型,包括像素nerf和GRF,它们需要使用多视图数据集来训练更好的2D以生成3D模型效果。
多视图数据集通常是有限的,而且训练时间很长。
因此,作者提出了一种新的方法,即使用自动编码器提取物体的姿势和形状特征,然后直接生成新的透视图像。
Pix2nerf包括三种网络结构,即生成网络G、鉴别网络D和编码器E。
其中,生成网络G和判别网络D形成生成对抗网络Gan,编码器E和生成网络G用于形成自动编码器:
首先,通过无监督学习,自动编码器可以获得输入图像的隐藏特征,包括物体姿态和形状,并利用学习到的特征重构原始数据;
然后,通过姿态和形状数据,使用Gan重建与原始物体形状不同的新视图。
在这里,研究人员使用了一种称为π-Gan的结构,它比其他类型的Gan能更好地生成3D透视照片(作者还比较了一篇使用hologan的论文):
那么,这种“混合”人工智能模型的效果如何?
还可以通过粘贴图片生成新的透视图
作者首先进行了一系列消融实验,以验证不同的训练方法和模型架构是否真的能改善pix2nerf的效果。
例如,移除模型的Gan反向映射和自动编码器,或者不要使用预热来预热学习速率,然后尝试生成具有新视角的人脸:
其中,Gan反演的目的是将给定的图像反转回预先训练好的Gan模型的势空间,以便生成器可以根据反演代码重建图像。
实验表明,除完整模型外,去除各种方法的模型生成人脸的效果不够好。
然后,作者将生成照片的效果与生成新视图的其他人工智能模型进行了比较。
结果表明,虽然pix2nerf在shapenetJetLi的生成效果上不如pixelnerf,但效果也相对接近:
在CelebA和卡拉的数据集上,pix2nerf基本上取得了最好的结果。
此外,该模型还具有一些“美容”功能,即使发送了粘贴图片,也可以为Gan提供更平滑的轮廓:
总的来说,除了从不同角度生成新的视图外,对象也可以由大脑构成360在°
人工智能似乎和人类一样,已经学会了“大脑填充”他们从未见过的物体的形状。
作者简介
本文作者来自苏黎世联邦理工学院(ETH)。
第一篇论文是eth硕士蔡胜渠,他毕业于伦敦国王学院。他的研究兴趣是神经渲染、生成模型和无监督学习。他高中毕业于辽宁实验中学。
eth博士生安东·奥布霍夫曾在英伟达和其他公司工作,他的研究方向是计算机视觉和机器学习。
马普切研究所高级研究员、eth(外部)讲师戴登新专注于有限监督下的自动驾驶、传感器融合和目标检测。
Lucvangool是eth的计算机视觉教授。谷歌的学术参考文献已经达到15W+,其研究方向主要是2D和3D对象识别、机器人视觉和光流。
目前,这项研究的代码仍在编制中。
感兴趣的伙伴可以蹲一会儿~
论文地址:https://arxiv.org/abs/2202.13162
项目地址:https://github.com/sxyu/pixel-nerf
参考链接:
[1]https://arxiv.org/pdf/2102.03285.pdf
[2]https://arxiv.org/pdf/2012.02190.pdf
[3]https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning
[4]https://www.linkedin.com/in/shengqu-cai-818230185/
© 本文系原创,著作权归:芦虎导航官网。如需转载,请署名并注明出处:https://www.luhu.co/article/000000000016131.shtml



















