SketchDream: Sketch-based Text-to-3D Generation and Editing
摘要
图1展示的SketchDream系统支持通过二维草图来生成和编辑高质量的三维内容。生成部分包括:草图结合文字提示生成3D内容;编辑部分则是基于真实模型重建的NeRFs进行草图编辑。
背景:目前的基于文本生成三维内容的方法缺乏几何控制,这面临着2D到3D翻译的歧义和多模态条件集成的挑战。同时,在任意视图中对三维模型进行进一步编辑时,很难保证高质量的生成效果,保持未编辑区域的完整性,并管理形状组件之间的相互作用。
本文贡献了一个文本驱动的3D内容生成与编辑方法。该方法通过草图与NeRF实现了基于自由视图的局部编辑。
创新点在于引入了一个基于草图的多视图图像生成扩散模型,利用深度引导建立空间对应关系,解决了2D到3D的挑战。
方法采用由粗到细的处理方式:在粗略阶段,提供3D Masks标记编辑区域;在细致阶段,进行局部增强。
结论
- 设计了基于草图的多视图图像生成扩散模型,以补充缺失的外观并将单视图草图传播到三维空间中。
- 将输入的草图翻译成深度图,并利用深度图将草图变形为新的视图以建立3D对应关系。
- 3D ControlNet生成3D一致的多视角图像。
- 通过多视图扩散的3D SDS和文本到图像的2D ISM优化高质量NeRF模型。
- 不足之处:依然存在一些编辑生成效果不佳的样例,例如生成过于奇怪的情况;难以实现灯光、颜色、材质的细节控制;生成和编辑的时间较长(分别为1小时与1.5小时)。
介绍
段一:陈述背景,包括当前的情况和不足之处。
段二:分析国内外现状,重点讨论文本驱动生成的局限,进而引出本文的工作。
段三:讲述将草图引入过程中遇到的问题,以及现有相关方法的缺陷。
段四:讨论基于草图的编辑功能,阐述现有问题和相关方法的不足。
段五:为了克服上述问题,介绍本文的工作,包括解决的难题、设计的方案以及具体的实现方法。
段六:说明本文工作的主要作用,详细描述其框架的具体内容和流程。
段七:列出本文的贡献点。
相关工作
基于草图的3D生成:
- 段一:从早期的检索方法到深度学习发展后的各种方法,并陈述这些方法的局限性。
- 段二:介绍本文的方法及其优点。
基于文本到图像的3D生成:
- 段一:从扩散模型到3D表示,探讨预训练2D扩散进行SDS优化等方法的不足,并说明本文方法的优点。
- 段二:讨论3D生成的可控性,列举现有方法如make-it-3D、magic123、ImageDream、MVControl的不足。
3D内容编辑:
- 段一:分析几何编辑等方法的现状,并说明与现有作品相比,本文方法如何支持基于单视图草图的编辑,实现更复杂的编辑操作,如可控的几何修改。
准备工作
- MVDream:基于该框架生成多视角图像,为草图到3D内容生成与编辑提供基础支持。
- Score Distillation Sampling (SDS):用于通过2D扩散模型进行文本到3D的生成优化,确保生成的3D模型质量与一致性。
方法
介绍基于草图的文本到3D内容生成和编辑框架,细分如下:
多视图扩散模型:引入一个基于草图的多视图扩散模型。该模型通过预测草图扭曲的深度图来建立空间对应关系,并生成逼真的多视图图像。
SDS与多视图扩散模型的协作:多视图扩散模型与SDS协作,以应用3D约束和草图控制。同时,预训练的2D文本到图像扩散模型用于增强生成内容的外观细节。
草图编辑框架:基于草图的编辑框架展示了其在局部编辑中的有效性,同时能够保留未编辑区域的原始特征。
4.1 基于草图的多视角扩散模型
多视角生成:对MVDream主干网络进行修改,生成4个不同视角的图像,同时添加草图图像作为输入。
深度驱动:段一描述先前的工作,引出本文内容。段二介绍所构建的深度图生成扩散模型,将草图与文本提示作为输入,输出相应的深度图。
3D注意力控制模块:应用ControlNet于预训练的MVDream中,仅输入草图和一个稍微扭曲的草图,其他三个视角为空图像,生成多视角图像。
训练过程:
- 深度生成模型:基于2D ControlNet,将深度图代替彩色图像,使用Objaverse数据集,成对草图提取,修复VAE和ControlNet分支,训练文本到图像的UNet。
- 基于草图的多视角生成模型:给定多视图图像和草图的数据集,输入包括五张图像与对应相机条件、两张草图和文本。
4.2 基于草图的3D生成
- 段一:由于4.1生成的图像存在问题,利用SDS优化,渲染五个视角的图像:草图视图图像用于控制几何图形,四个随机采样视图图像用于优化3D NeRF表示。
4.3 基于草图的3D编辑
- 段一:支持对生成或重建的3D模型的NeRF进行基于草图的本地编辑,设计了两种编辑阶段。
4.3.1 粗略阶段编辑
- 使用2D mask转换至3D空间,结合cylinder mesh模型。手绘2D草图,用户定义最大和最小深度值,渲染五个视图图像以优化NeRF。相机条件中渲染3D蒙版模型,定义图像损失。
4.3.2 精细阶段编辑
- 基于4.3.1生成的初始编辑结果,解决包含的不希望的更改,得到更精确的3D蒙版。将NeRF转换为Mesh,手动细化。提出局部增强策略,在局部编辑区域中单独添加扩散约束和注意力机制;利用精细阶段的2D扩散损失来改善细节。
评估
- 实施细节:使用两张A6000显卡进行训练,网络参数设置详述。在单张A100上生成图像需要1至1.3小时。
5.1 结果
- 段一:展示基于草图生成的效果,说明其质量与细节表现力。
- 段二:展示基于草图编辑的效果,展示编辑精度与局部修改的效果。
5.2 对比
- 基于草图生成:与直观的baseline进行比较,突出模型的优势。
- 基于草图编辑:支持基于草图和文本对真实对象进行本地编辑,并进行可视化对比。
- 定量研究:使用CLIP评估和用户评分进行量化分析。
5.3 消融研究
- 段一:介绍进行了哪些实验。
- 段二:分析深度图预测与草图扭曲的作用;讨论3D注意力ControlNet的贡献。
- 段三:评估SDS损失与2D损失的作用。
- 段四:分析在草图编辑中的局部增强策略的效果。
5.4 用户研究
- 段一:对41名调查者进行了用户验证,展示方法的有效性,绘制箱型图,并进行单因素方差分析与T检验。
- 段二:将草图编辑与SKED方法进行对比,采用与段一类似的方法阐述结果,突出本文方法的优势。