面向3D模型生成


shap-e

提出一种新的条件生成模型——Shap-E,用于生成3D图像。

探讨了如何在大数据集上训练Shap-E模型。

Shap-E模型的关键思路是通过两个阶段的训练来生成3D图像。首先,通过编码器将3D图像映射到隐式函数的参数空间中,然后在编码器的输出上训练有条件的扩散模型。相比于当前3D生成模型的研究状况,Shap-E模型的思路更加直接,可以生成复杂多样的3D图像,并且收敛速度更快。

两种用于3D表示的INR

NeRF:将3D场景表示为将坐标和观看方向映射到密度和RGB颜色的函数。NeRF可以通过查询相机光线的密度和颜色从任意视图渲染,并训练以匹配3D场景的地面真实渲染。

DMTet /GET3D

ImageDream

一种创新的图像提示、多视角扩散模型,用于生成3D物体。

优势:能够产生更高质量的3D模型

解决问题:如何利用图像生成高质量的3D物体模型,同时提高视觉几何精度。

关键思路:使用标准的相机坐标系来提高图像中物体的几何精度,并在扩散模型内的每个块中设计不同级别的控制,以精细调整图像细节。

HarmonyView

先验知识

NeRF

Neural Radiance Fields神经辐射场:仅用2D的posed images作为监督,即可表示复杂的三维场景。

处理的任务:新视角合成。**输入图像序列和位姿,输出**新视角&mesh

传统三维重建两种重建方式

  1. 主动式

在传统的主动式三维重建中,首先从不同角度拍摄待重建物体的深度图像,由于彩色图像有助于相机定位及给模型添加颜色,也可以在采集深度图像同时,采集对应的彩色图像。随后通过ICP(Iterative Closest Point)等技术计算相机姿态。之后将场景隐式表达为SDF体素网格模型,最后通过raycasting渲染出重建的视角,最后输出给AR设备显示。

  1. 被动式

传统的被动式三维重建中,首先从不同角度拍摄待重建物体的彩色图像,随后通过SfM(structure from motion)等技术获得相机位姿和模型的初始点云。随后通过深度估计、点云的稠密重建、网格重建及优化和网格贴图等流程得到最终带有贴图的模型。

缺点最终重建的模型中可能会有孔洞、纹理混叠、由于体素分辨率限制丢失很多细节。

NeRF的优势合成照片级别的新视角,重建的模型细节更加丰富,它通过使用稀疏的输入视图集优化底层连续的体积场景函数,实现了综合复杂场景视图的最好结果,无空洞、细节还原,发展迅速。

 An overview of our neural radiance field scene representation and differentiable rendering procedure. We synthesize images by sampling 5D coordinates (location and viewing direction) along camera rays (a), feeding those locations into an MLP to produce a color and volume density (b), and using volume rendering techniques to composite these values into an image (c). This rendering function is differentiable, so we can optimize our scene representation by minimizing the residual between synthesized and ground truth observed images (d).

CLIP

Contrastive Language-Image Pre-training 基于对比文本-图像对的预训练方法/模型

用户草图:结合HED边界检测和一组强数据增强(随机阈值、随机屏蔽涂鸦、随机形态变换、随机非极大抑制),从图像中合成人类涂鸦。从互联网上获得了50万对的涂鸦图像-caption数据对。使用前面的Canny模型作为初始化checkpoint,并使用Nvidia A100 80G用150个gpu小时训练。

工作原理和流程:

  1. 输入图像处理:TripoSR接受单张RGB图像作为输入。
  2. 图像编码器:使用预训练的视觉变换器模型(如DINOv1)将输入图像编码为一组潜在向量。这些向量包含了图像的全局和局部特征,为重建3D对象提供了必要信息。
  3. 图像到三平面(Triplane)解码器:将潜在向量转换为三平面-神经辐射场(NeRF)表示。平面-NeRF是一种紧凑且富有表现力的3D表示方法,适合表示具有复杂形状和纹理的物体。
  4. NeRF模型:由多层感知器(MLPs)堆叠而成,负责预测空间中3D点的颜色和密度。\
  5. 渲染和训练:模型在训练过程中不依赖于相机参数,而是在训练和推理时“猜测”相机参数,以增强模型对野外输入图像的鲁棒性。