A Peek at Representations and Neural Architectures for 3D Generative Models

2024-05-15
Author 孙新斌
~9.46K words

特别感谢曹炎培在他的PowerPoint上做出的宝贵贡献，丰富了这篇博客文章。

3D生成模型包括三部分：

3D表示：
显式表示：包括直接描述三维结构的点云、网格和体素网格。
隐式表示：使用神经网络表示三维形状，该网络输出给定三维坐标的值（例如，有符号距离函数或占用率）。
混合表示：将显式和隐式表示相结合，以利用这两种方法的优势。
3D生成方法：
前馈生成：使用前馈神经网络从输入直接生成3D模型。
基于优化的生成：包括迭代优化以生成3D模型，通常使用可微分渲染技术。
过程生成：使用过程规则和算法生成三维模型，允许创建复杂而详细的结构。
生成新视图合成：利用神经渲染等技术，专注于从有限的输入图像集生成场景的新视图。
数据集：3D数据、多视角图像、单张图像
应用：3D人脸生成、3D对象生成、3D场景生成

未来挑战：

数据稀缺性：与2D图像不同，3D数据集不那么丰富，也更难获取。
质量评估：由于需要多视图一致性和逼真的渲染，评估3D模型的质量更加复杂。

在视觉信息/测量中，由概率预测性的3D生成，到单视角图像预测，再到稀疏视图预测，直到拥有硬件设备扫描的确定性3D重建，3D测量的具体信息逐渐增加，反方向则逐渐减少。

3D生成AI的关键：从大规模语言模型和2D生成AI中获取成功经验

扩大规模
- 计算能力
- 模型大小
- 数据
挑战
- 更高维度的数据
- 3D数据的稀缺性
关键
- 3D表示
- 神经架构
- 数据
  数据稀缺：没有原料如何造砖？

文本数据：数万亿
视频数据：数十亿小时
图片数据：数十亿
3D数据：数千万吗？

3D数据集

当前的公开3D数据如下表所示：

Dataset	Type	Year	Samples	Category
ShapeNet [CFG*15]	3D data	2015	51K	objects
Thingi10K [ZJ16]	3D data	2016	10K	objects
3D-Future [FJG*21]	3D data	2020	10K	furniture
GSO [DFK*22]	3D data	2022	1K	household items
Objaverse [DSS*23]	3D data	2022	800K	objects
OmniObject3D [WZF*23]	3D data	2023	6K	objects
Objaverse-XL [DLW*23]	3D data	2023	10.2M	objects
ScanNet [DCS*17]	multi-view images	2017	1.5K (2.5M images)	indoor scenes
CO3D [RSH*21]	multi-view images	2021	19K (1.5M images)	objects
MVImgNet [YXZ*23]	multi-view images	2023	219K (6.5M images)	objects
DeepFashion [LLQ*16]	single-view images	2016	800K	clothes
FFHQ [KLA19]	single-view images	2018	70K	human faces
AFHQ [CUYH20]	single-view images	2019	15K	animal faces
SHHQ [FLJ*22]	single-view images	2022	40K	human bodies

为3D Generative AI（3D GenAI）创建理想的3D表示涉及解决几个关键要求：

1.高效的处理和渲染

处理和渲染的效率对于实时应用程序和大规模模拟至关重要。这意味着3D表示应该：
最小化计算复杂性：应优化算法和数据结构，以减少渲染所需的计算次数。
利用硬件加速：利用GPU处理和并行计算技术加快渲染速度。
支持细节级别（LOD）：表示应允许不同的细节级别，以根据观看者的距离和系统功能优化性能。

2.高保真度和高压缩

高保真度可确保3D模型与真实世界的对象或场景紧密匹配，而高压缩可实现高效的存储和传输，而不会造成显著的质量损失。
几何压缩：网格简化、量化和渐进网格等技术可以在保持视觉质量的同时减少数据大小。
纹理压缩：用于2D纹理的JPEG、PNG等高效算法，以及ASTC（自适应可缩放纹理压缩）等更先进的方法，可在现代GPU上获得更好的性能。
混合方法：将几何和外观数据（例如，法线贴图、位移贴图）相结合可以减少多边形数量，同时保留细节。

3.张量表示

张量表示使用张量（多维数组）来封装数据。这种方法之所以有益，有几个原因：
灵活性：张量可以表示各种形式的数据，包括标量场、向量场和更复杂的实体。
与人工智能框架的集成：张量由TensorFlow和PyTorch等机器学习框架原生支持，促进了深度学习技术的应用。
高效计算：张量允许高效的并行运算，非常适合GPU加速。

4.对形状和外观进行编码

理想的表示应该对对象的几何形状和外观（纹理、材质）进行编码：
形状编码：使用网格、点云或隐式函数（例如，带符号的距离字段）。像神经隐场（NeRF）这样的隐式表示可以有效地对高分辨率细节进行编码。
外观编码：结合纹理、材质特性（反射率、光泽度）和环境效果（照明、阴影），实现真实感。
统一模型：最近的进展涉及将形状和外观组合成一个单一的表示，例如具有学习纹理图或神经辐射场的体素网格。

5.与CG管道的兼容性

为了确保广泛的可用性，3D表示应与现有的计算机图形（CG）管道兼容：
标准格式：支持OBJ、FBX和glTF等行业标准格式，可确保与各种工具和平台的互操作性。
着色器兼容性：与着色语言（如GLSL、HLSL）和渲染引擎（如Unity、虚幻引擎）集成，实现逼真渲染。
场景图集成：与用于组织和管理复杂场景的场景图表示（例如，OpenSceneGraph）兼容。

总结

将这些要求结合起来，可以实现复杂实用的3D表示，从而平衡效率、保真度和兼容性。例如，像神经辐射场（NeRF）这样的神经隐式表示可以提供形状和外观的高保真度和高效编码，同时具有张量性并与机器学习框架兼容。通过将这些先进的技术与传统的CG管道相结合，我们可以实现多功能、强大的3D表示，非常适合现代GenAI应用。

为3D Generative AI（3D GenAI）设计理想的神经架构涉及解决几个关键挑战和要求：

1.利用预先训练好的模型或其他模式的数据优先级
3D GenAI模型可以从其他领域转移的知识中受益匪浅，例如2D图像处理或文本理解。这种方法可以补偿高质量3D数据的稀缺性。
迁移学习：利用大型2D图像数据集（如ImageNet）上的预训练模型来初始化3D模型架构的部分，尤其是对于特征提取层。
多模态学习：整合来自各种模态的数据，如图像、视频和文本描述，以构建更丰富的先验。例如，使用CLIP（对比语言图像预训练）嵌入可以帮助理解3D对象的上下文和语义。
2.解决缺乏高质量3D数据的问题
高质量3D数据的稀缺性对训练健壮的3D模型提出了挑战。缓解这种情况的策略包括：
数据增强：应用旋转、缩放和遮挡等变换来生成更多的训练样本。
合成数据生成：使用模拟和程序生成创建高质量的合成3D数据集。
自监督学习：实现对比学习或自动编码器等技术，从未标记的3D数据中学习有用的表示。
3.可扩展性
该体系结构必须可扩展，以处理复杂和大规模的3D数据集。
层次表示：使用层次结构（例如，八叉树或空间划分）来有效管理大规模3D数据。
分布式培训：使用分布式计算框架在多个GPU或机器上扩展培训过程。
渐进式训练：从低分辨率的表现开始，在训练过程中逐步将其细化到更高的分辨率。
4.多才多艺
该模型应具有足够的通用性，以处理各种3D任务，如重建、生成和分割。
模块化架构：使用可针对不同任务重新配置的模块化组件设计网络。例如，用于特征提取的通用骨干网络可以与用于分类或重建等特定任务的不同头相结合。
少镜头学习：实现少镜头学习功能，以快速适应数据有限的新类或新领域。
5.对不同条件/表现的适应性
该体系结构应该是灵活的，以适应各种输入和输出表示，包括点云、网格和体素网格。
统一表示学习：开发可以处理和生成不同类型3D数据表示的模型。点云处理网络（例如PointNet）和基于体素的网络（例如3D CNNs）等技术可以集成到单个框架中。
条件生成：使用条件生成模型（例如，条件GANs）根据样式、形状或其他属性等特定条件生成3D数据。
6.对三维数据空间结构的感知
了解三维数据中固有的空间结构对于准确建模至关重要。
几何深度学习：结合几何深度学习的原理，以尊重3D数据的空间结构，例如对网格数据使用图神经网络（GNN）或适用于点云的卷积层。
空间变换器：使用空间变换器网络动态关注输入数据的相关部分，提高模型处理不同空间配置的能力。
隐式表示：利用隐式神经表示（例如，neural Radiance Fields，NeRF），无需显式网格或点云即可对连续三维曲面进行建模。
总结
3D GenAI的理想神经架构应结合各种先进技术的优势，以应对3D数据稀缺性、可扩展性、多功能性、适应性和空间结构意识等挑战。通过利用预先训练的模型，利用可扩展和模块化设计，并结合几何深度学习原理，这种架构可以在广泛的应用和条件下有效地生成、重建和操作3D数据。

Zero-1-to-3：零样本一个图像到3D对象

目标：将单个图像转换为可以从多个角度观看的3D对象。
方法：使用条件潜在扩散结构的视点条件图像翻译模型。
训练：从稳定扩散（SD）模型进行微调，使用Ob厌恶对象（3D对象的大规模数据集）的多视图渲染图像。
主要功能：
1.视点条件转换：模型学习在不同相机角度的条件下生成对象的新颖视图。
2.潜在扩散体系结构：利用潜在扩散模型的力量来处理3D数据的高维度和复杂性。

局限性：

一致性问题：生成的视图可能并不总是彼此一致，从而导致工件或不匹配。
可控性：对生成的3D对象的形状和纹理的有限控制。
质量：生成的3D模型可能并不总是达到某些应用程序所需的高保真度。

改进和扩展：

最近的工作通过增强保真度、一致性和可控性，解决了Zero-1-to-3的一些局限性：

HiFi-123：实现高保真的单图像到3D内容生成

观察：将深度图纳入去噪扩散隐式模型（DDIM）反演和采样过程可提高重建保真度。
技术：使用注意力注入来提高基于扩散模型的新视图合成（NVS）的质量。

Wonder3D:使用跨域扩散将单个图像转换为3D

方法：利用处理法线域和RGB域的跨域扩散模型，确保几何感知法线融合。
目标：优化几何体感知法线损失，以保持一致和准确的曲面表示。

EpiDiff：通过局部Epipolar约束扩散增强多视图合成

创新：利用对极约束进行有效的跨视图交互，降低多视图自注意机制的计算成本。
结果：实现了更一致和几何精度更高的多视图合成。

DreamComposer：通过多视图条件可控制的3D对象生成

灵活性：通过注入多视图条件来增强现有的视图感知扩散模型。
管道：包括目标感知的3D提升、可扩展的多视图特征融合和目标视图特征注入，以实现更可控的3D生成。

主要挑战

1.高维数据：3D数据天生比2D图像更复杂，在处理和渲染方面带来了重大挑战。
2.高质量3D数据的稀缺性：与文本和图像不同，高质量的3D数据集相对有限，这使得训练深度模型更具挑战性。
3.计算需求：3D生成模型计算密集，需要大量资源进行训练和推理。
结论
从单个图像生成多视图3D内容涉及先进的神经架构，该架构利用预先训练的模型和创新的扩散技术。通过结合深度图积分、跨域扩散和局部核极约束等方法，这些模型实现了更高的保真度、一致性和可控性。尽管存在高维度和数据稀缺等挑战，但正在进行的研究仍在继续突破3D生成人工智能的可能性。

相关领域论文

Pathways to 3D：重建 vs. 生成

Dream3D：使用3D形状先验和CLIP引导进行文本到3D生成

优化辐射场，使其渲染与给定的文本提示高度语义相似
在优化过程中加入明确的3D形状先验
例子：“一艘漂浮在水上的渔船”、“一辆燃烧的汽车”、“权力的游戏中的铁王座”。

DreamFusion：使用2D扩散进行文本到3D生成

[ICLR 2023]

评分蒸馏采样（SDS）
“最佳实践”
视角依赖的提示
时间步长退火
大的CFG
正则化损失等

DreamFusion：SDS的工作原理是什么？

ProlificDreamer: 使用变分分数蒸馏（VSD）实现高保真和多样化的文本到三维生成

ProlificDreamer利用变分分数蒸馏（VSD）来增强文本到3D的生成，重点关注生成模型的高保真度和多样性。
与优化单点的传统方法不同，VSD优化了分布，允许更好地采样和捕获更广泛的输出。
方法论
分布优化：VSD不寻求单一模式，而是优化与输入文本相对应的可能3D模型的整个分布。
采样策略：该方法强调从分布中采样，而不是模式搜索，这有助于生成多样化和高质量的3D模型。
LoRA（低秩自适应）的使用：额外的模型（LoRA）用于在训练期间提供更多信息梯度，从而提高生成的3D内容的质量和多样性。
实施
渲染功能：渲染过程包括从3D模型的不同视图生成2D图像，添加噪声，并使用这些噪声图像进行训练。
少镜头扩散训练：估计有噪声渲染图像的分数函数对应于少镜头扩散培训，这有助于更好地捕捉底层3D结构。
反向传播：该技术用于通过渲染图像微调LoRA，并迭代更新3D对象，从而细化几何体和纹理。
比较和优势：
SDS与VSD之比较：VSD提供了比传统分数蒸馏采样（SDS）中使用的纯高斯噪声更多的信息梯度，从而产生更好的生成结果。
信息梯度：使用习得的负分类器分数有助于更有效地指导生成过程。
应用程序和目标：
高保真度：确保生成的3D模型具有高质量，并与输入描述紧密匹配。
多样性：从相同的输入生成各种各样的模型，以捕捉不同的可能解释和用途。
ProlificDreamer利用变分分数蒸馏的优势，有效地生成高保真度和多样化的3D模型，代表了文本到3D生成的重大进步。

Threestudio:3D内容生成的统一框架

Threestudio是一个统一的3D内容生成框架，专门针对研究人员。该框架被设计为模块化、可扩展、灵活和可配置的。它同时支持文本到三维和图像到三维生成。
框架设计：
Threestudio的设计包括每个模块的一致界面和即插即用架构，使实验类似于用乐高积木建造。这允许用户组合不同的模块和技术以实现不同的3D生成结果。
实验：
该框架支持各种组合，例如：
具有变分分数蒸馏的体积网格（VSD）
使用DeepFloyd IF SDS引导进行图像到3D的转换
从TextMesh几何初始化到ProlificDreamer几何细化和纹理的顺序处理
应用程序：
DreamAvatar：一种根据文本和形状指导生成3D人类化身的工具，使用扩散模型来改进网络设计，控制生成的姿势，并生成各种化身。它采用SMPL模型作为3D先验，并支持关节变形和非刚性运动。
主要功能：

各种生成技术的集成
支持复杂多样的3D化身创建
灵活组合不同的模块和方法生成3D内容

DreamAvatar：文本到3D的化身

“DreamAvatar”是一个使用文本和形状引导，利用扩散模型生成3D人类化身的框架。它旨在通过改进网络设计、控制姿势和生成各种化身来增强与人类相关的3D模型的生成。
关键组件：
1.网络设计改进：

该框架侧重于增强网络生成详细准确的3D人体模型的能力。

2.姿势控制：

它包括稳健地控制生成的化身的姿势的机制，确保化身的四肢和身体的逼真和期望的定位。

3.各种化身一代：

该方法支持生成各种各样的化身，允许在外观上进行定制和变化。

技术方面：

1.SMPL型号：

使用SMPL模型作为三维先验。SMPL（Skinned Multi-Person Linear）是三维人体形状表示的标准模型，以其对人体姿势和形状建模的效率和准确性而闻名。
2.扩散模型：
利用扩散模型来驱动生成过程，确保生成的化身具有高保真度。
3.渲染：
集成了用于体积渲染的共享NeRF（神经辐射场）模块，增强了生成的化身的视觉质量。
4.铰接变形和非刚性运动：
该框架支持复杂的变形和运动，允许更逼真和动态的化身。
5.规范空间和姿态空间：
适用于规范空间（标准姿势）和姿势空间（特定姿势），实现灵活的化身创建。
6.控制网：
实现ControlNet以对生成过程进行详细控制，特别是在地标和特定功能方面。
7.属性集成：
允许将各种属性（例如，服装风格、配饰）集成到化身中，提供广泛的定制选项。
应用程序：

娱乐和媒体：
用于为游戏、电影和虚拟现实应用程序创建角色。
虚拟化身：
可用于虚拟会议、社交平台和数字影响者。
定制：
提供高度定制，为用户提供个性化头像。

挑战和未来工作：

虽然该框架显示出了希望，但仍需要继续进行工作，以进一步提高生成的化身的真实性和多样性。未来的研究可能侧重于增强姿态控制的鲁棒性和改进附加属性的集成。

SketchDream:基于草图的文本到三维生成和编辑

使用的数据集

该论文没有明确提及用于训练和评估的特定数据集。它侧重于集成草图和文本提示以生成和编辑三维内容的方法和框架。

所用方法的详细说明

1.基于草图的多视图图像生成：
为了解决从草图生成三维内容的挑战，作者提出了一种基于草图的多视图图像生成扩散模型。该模型利用深度引导来建立空间对应关系。3D ControlNet配备了3D注意力模块，可控制多视图图像并确保3D一致性。
2.深度引导翘曲策略：
给定输入的二维草图和文本提示，模型使用二维扩散模型生成相应的深度图。该深度图用于扭曲输入草图，将其传播到三维空间，并避免Janus问题（具有多个正面的三维模型）。
3.三维控制网：
基于MVDream，3D ControlNet从方位角均匀分布的四个摄像机视图生成图像。为了在草图和多视图图像之间建立对应关系，MVDream主干在输入草图的视图中生成一个附加图像。三维注意力控制模块以输入的二维草图和具有深度引导的附近视图中的扭曲草图为输入，确保对三维扩散生成的有效控制。
4.粗略到精细的编辑框架：
对于基于草图的三维内容编辑，作者设计了一个从粗到细的两阶段编辑框架。粗阶段将二维掩模提升到三维空间，构建一个粗略的三维柱形掩模，生成初始编辑结果。精细阶段从该结果中提取网格模型，使用粗略的3D柱状掩模标记编辑区域，并应用局部渲染策略来提高草图的忠实性和生成质量。

其他重要内容

贡献：
1.第一种基于草图的文本到三维生成和编辑方法：该方法在广义类别下生成高质量的三维对象，并支持对重建或生成的NeRF进行详细编辑。
2.基于草图的多视图图像生成扩散模型：利用深度引导的扭曲策略和3D注意力控制模块来确保3D一致性。
3.粗略到精细的编辑框架：生成初始结果，以便更好地标记已编辑的区域，并通过局部渲染策略提高质量。
实验验证：
大量实验验证了所提出的方法，表明它产生的结果比可能的基于草图的文本到三维基线和现有基于草图的三维编辑方法更高质量。

扩大规模的成功经验

扩展成功的3D生成AI需要以下关键因素：

计算能力：有效利用计算资源以处理复杂的3D数据。
模型大小：大型模型能够更好地捕捉和生成高质量的3D内容。
数据：尽管3D数据稀缺，但通过高效的数据处理和生成方法可以缓解这一问题。
挑战：

处理更高维度的数据需要更高的计算能力和更复杂的模型。
3D数据的稀缺性仍然是一个主要挑战，需要通过创新的数据生成和增强方法来解决。
关键：
3D表示：高效、兼容CG管线的3D表示形式。
神经架构：能够利用其他模态预训练数据的可扩展、通用的神经网络架构。

涉及3D生成和生成渲染的几个关键方面和未来方向的几点：

1.“每一个像素都将很快生成”
这一声明反映了生成模型在创建高细节和逼真图像方面的能力不断增强，一直到单个像素级别。神经渲染和生成对抗性网络（GANs）的进展表明，人工智能可以生成逼真的图像和视频，这表明很快，生成模型就可以处理传统上由图形引擎执行的渲染任务。
意义：这可能会彻底改变游戏、虚拟现实（VR）和电影等领域，在这些领域，实时高保真渲染至关重要。

2.3D生成
概述
技术：包括体积表示、神经隐式场（NeRF）和基于体素的模型等方法。
应用程序：用于创建数字孪生、虚拟环境和交互式媒体。

挑战：
数据：高质量的3D数据稀缺，使训练模型变得困难。
计算成本：生成高保真3D内容需要巨大的计算能力。

3.生成渲染
概念
将生成模型与传统渲染技术相结合，生成高质量的图像和动画。
技术：将GANs、变分自动编码器（VAE）和扩散模型与渲染管道集成，以提高视觉质量和效率。

优点：
效率：通过算法生成逼真的纹理和照明效果，可能会减少计算负载。
质量：通过从大量真实世界图像数据集中学习，增强真实感。

4.不局限性
3D（物理）交互（尤其是在空间计算中）
挑战：虽然生成模型擅长视觉渲染，但3D空间中的物理交互需要精确的物理模拟和实时响应。
空间计算：涉及增强现实（AR）、虚拟现实和混合现实（MR）中的应用，系统必须实时了解物理环境并对其做出反应。

5.成本（主流手机游戏的平均运行速度约为每秒60帧，功率为2~3瓦）
效率问题：
性能：移动设备的处理能力和电池寿命有限，因此必须优化3D生成模型以提高效率。
技术：使用轻量级模型、高效算法和硬件加速（例如，使用GPU或专用AI芯片）。

当前趋势：
边缘计算：将一些处理卸载到边缘服务器，以减少移动设备的计算负担。
压缩：采用数据压缩技术，最大限度地减少高保真图形所需的带宽和处理。

6.本次演讲之外的其他主题
材质、动画、动态3D（4D）
材质：生成模型可以创建复杂的材质特性和纹理，这些特性和纹理会随着照明和环境的变化而动态变化。
动画：人工智能驱动的动画技术可以利用运动捕捉数据和基于物理的模拟，产生逼真的角色动作和互动。
动态3D（4D）：结合了时间维度，能够生成对象和环境随时间演变的动态场景。

未来发展方向：
混合模型：将确定性算法与生成模型相结合，以处理实时交互系统的复杂性。
交互式人工智能：开发能够以逼真的方式与用户和环境交互、适应变化并提供身临其境体验的人工智能。
可持续性：专注于节能的人工智能解决方案，平衡性能和环境影响。

Neo Sun