引言

本文对SD基础知识进行一个总结。

一、核心概念理解

在掌握了 Stable Diffusion 1.5 和 SDXL 的基础知识后,我们通过”雕塑”概念以一句话来总结一下:

独具特色的雕塑家拿着原始石料在设计需求说明书的指引下按某种雕塑策略进行雕塑创作。

  • 雕塑家:Unet Model,每个雕塑家都有自己的特色,即每个Unet模型都有自己的特点。
  • 原始石料:latent image,潜空间图像,SD1.5&SDXL都是在潜空间进行图像生成的,至于为什么需要在潜空间中进行,最大原因是能极大的压缩空间,使得寻常硬件得以计算。总之,可以将其理解为创作所需的原始石料,以下如何获取原始石料的方式:
    • 直接提供latent image,设定长宽。
    • 将原始空间图像(寻常人眼感知的图片)通过VAE Encode的方式转换成潜空间图像。
  • 作品去色/上色器:VAE Encode/Decode,将原始空间图像(人眼寻常感知的图片)转变成潜空间图像,这个过程也称为编码Encode,好比对雕塑成品进行去色,从而得到石料本体;同时也支持从潜空间图像转换成原始空间图像,这个过程称为Decode,好比对雕塑完毕的石料本体进行上色。这个去色和上色规则记录在VAE model中,即需要加载这个模型。
  • 设计需求说明书:Text Embedding(pos + neg),用于指导雕塑家进行雕刻,雕塑家每次雕刻都需参照设计需求说明书。如何获得需求设计说明书:
    • 通过一个转换器Text Embedding Encode将自然语言(人类语言,通常是英文)转换成雕塑家能理解的设计需求说明书,转换规则被记录在CLIP model中,即需要加载这个模型。
  • 雕塑策略:调度器(scheduler)、去噪步数(steps),采样器(sampler)。其好比雕刻策略,先制定整个雕刻计划(“路线图”),决定了在整个生成过程需要去除的石料应该如何逐渐减少;再定义执行步骤数量,越多,耗费时间越长,就越细致;最后,基于路线图,在每一步中具体执行雕刻动作,计算并将多余的石料进行雕刻去除。

二、其他组件的理解

理解了核心概念,其余所有组件都可以围绕这些核心概念进行优化或补充,如:

  • LoRA:强化雕塑家的能力,同时对设计需求说明书中的某些概念进行补充说明。
  • TI:在设计需求说明书中增加概念并描述概念详细信息。
  • IPAdapter:让雕塑家适配能力(由参考图和IPAdapter 模型)来确定。IPAdapter首先用一个CLIP-VISION转换器,将参考图中的视觉信息提取出来,这个转换器的规则记录在CLIP-Vision 模型中。视觉信息提取出来后,再由一个适配器将视觉信息进行筛选并融入unet model中,好比对训练家进行定向训练。
  • ControlNet:对设计需求说明书进行约束补充(结构、姿态、构图、空间关系和物理形态等)。CN拿着控制图通过一个转换器(depth,cany类型等)将约束补充融入设计需求说明书中,转换规则记录在CN model中,一般来说,控制图的类型需要和CN model匹配。这个控制图可以通过一个预处理器(preporcessor)从原始空间图像(寻常人眼中的图像中)提取出来,提取规则记录在preprocessor model中。
  • InstantID:适配雕塑家的能力,并对设计需求说明书进行补充约束。会将其通过一个人脸识别模块提取人脸信息(face embedding),通过一个转换器将face embedding融入到unet model中,这个转换规则记录在instantID model中,好比让雕塑家学习该脸部的雕刻方式。不仅如此,提取的脸部信息还会被另一个转换器融入到设计需求说明书中,转换规则记录在一个CN model中,相当于在设计需求说明书中告诉雕塑家这次要画哪张脸。另外:其实也可以看出,其实InstantID分为了3部分,一是人脸信息提取(可以有多种方式,常见如insight face),二是让雕塑家掌握人脸的雕刻方式(类似IPAdapter),三是在设计需求说明书中补充该人脸信息(类似Contronet)
  • SDXL其实也是在这些核心概念上进行了优化。
    • 雕塑家 & 原始石料:SD1.5在512 x 512更为擅长,而SDXL在1024 * 1024上能够大展身手,更大的空间意味着更多的细节。
    • 设计需求说明书:SD1.5是通过一个CLIP模型将自然语言转换成设计需求说明书,而SDXL通过两个CLIP模型将其转换成设计需求说明书,能更好的理解语义及空间关系。
    • 雕塑策略:将执行步骤整体分为两段,前段让一个雕塑家(base model)进行雕刻,后段让另一个雕塑家(Refiner model)进行细节打磨。两个雕塑家的擅长偏向不同。
    • 作品去色/上色器:毕竟石料尺寸不通,对VAE也进行的了提升,有更宽广色域和更高精度“笔刷”,它能识别并还原更微妙的色彩层次,让作品的表面光泽和纹理更加逼真,减少“塑料感”。

另外,相关参数也可围绕核心概念进行辅助理解

  • sampler node > seed:原始石料各种各样,而seed好比是石料的存放地址,结合长宽值,便确定具体石料。
  • sampler node > cfg:雕塑家对设计需求说明书的遵循程度。
  • sampler node > denoise strength:重绘幅度,文生图中默认为1,图生图中好比在雕刻前先往上面涂泥巴,这样才有创作空间,涂得越多,创作空间越大,和原始图像偏离程度就越高。
  • other node > start at/end:具体在哪一步生效,描述组件效果在雕塑策略的具体哪一步执行。
  • 其他都可以套用这种思想去辅助咱们理解。