ComfyUI – 0260

ComfyUI，一致性角色实战篇

burson — Mon, 15 Sep 2025 09:25:00 +0000

引言

为避免陷入学习陷阱，以阶段性目标为导引，约束学习路径。

本期学习目标为实现一致性角色，最终表现为训练一个Flux LoRa模型，整体思路为：

人物角色初始化：得到一张满意的T-POSE正面全身照和高清的头部图像。
角色多视角实现：基于初始化角色，得到不同视角的的图片。
丰富角色表情：给所有图片增加表情。
丰富背景：给增加表情后的图片增加背景。（至此，得到训练模型的图片素材）
素材处理：给素材批量修改大小及打标。
模型训练。

一、人物角色初始化

此步骤较为简单，目标有两个。

获得一张T-POSE正面全身照。
得到头部的高清放大图，作为之后脸部特征的依据。

1.1 T-Pose角色图生成

此处采用的是FLUX模型。

一般来说，获取一个角色要么随机，要么是想这个角色带有某个目标人物的脸部特征。在Flux中，可加入一个PuLID模块，用于提取目标人物的脸部特征。

工作流图示如下：

1.2 头部高清放大

基本思路：

提取T-Pose角色的头部区域
SD放大+FaceDetail，SD放大过程中为防止和原图相差过大，通过图片反推提示词+ControlNet_Tile保留原图特征。
为保留原角色图片色彩风格，增加一个色彩匹配节点。

工作流图示如下：

二、角色多视角图

此步骤主要目的是基于第一步得到的正面T-Pose图片得到多视角图，整体思路为：

获取多视角参考图，为后续的图片生成提供Controlnet引导(Pose，depth，cany)。(如果已经有了多视角CN控制图，可以省略此步)
基于T-Pose图，在多视角参考图提供的CN控制下，生成多视角图片。
由于参考生图通常会使得面部特征相差较大，还需进行脸部处理，用换脸思路即可。

2.1 获取多视角参考图

可以在网上搜寻多视角的参考图，关键词如：pose sheet，但通常很难得到能直接用的参考图。

有些UP/博主也会直接分享通用的CN控制图，如下图，但抽卡表现上稳定性不高。

在多次实践后，为生成较为稳定的结果，本次采用的思路是：

利用MV-Adapter，基于T-Pose图先生成六视角图，虽然细节特征会相差较大，但整体身型/色彩的一致性有较好表现，之后提取的CN控制图会较为契合目标。

工作流图示如下：

2.2 生成多视角角色图片

前置准备：

T-Pose图提供整体身型、服饰、发型等元素信息，多视角参考图提供CN-控制信息(本次使用是Pose图)。

整体思路：

利用Fill+Redux的组合，可以生成和T-Pose相似的图片(整体身型，内容，色彩等)，但缺点是姿势不能控制。（PS: Comfyui自带的Redux相当强大，极难更改姿势信息，建议使用Redux Adv）
在Fill+Redux的基础上，增加Controlnet模块，控制姿势。

工作流核心图示如下：

Fill+Redux组合工作流采用后得到想要的多视角图片

2.3 换脸

2.2 生成的多视角图虽然整体内容非常相似，但在脸部特征上会有较大区别，所以会在此基础上，利用换脸工作流进行脸部特征处理，此时1.2步骤中得到的头部图就起到了比较好的作用。

换脸工作流较多，SD1,5/XL或Flux都有较为成熟的处理方法，本次采用的是Flux，整体思路为：

将目标图片(需要换脸的图片)的头部区域截取下来。
将其Resize到100W像素左右(+-30%)，Flux在此大小上生成效果较好。
通过Fill重绘，对截取后图片的脸部区域进行重绘，此处同时采用了PuLID+Redux+Ace(Potrait)进行脸部特征提取。
将重绘后的图片还原到目标图片上。

工作流核心图示如下：

重绘前的准备

Fill+Redux+Ace(Portrait)+PuLID应用：

将重绘后的脸部区域还原到目标图片中

三、丰富角色表情

此步骤的目标为生成的多视角图进行表情处理，整体思路为：

图片剪裁，只保留肩部以上区域。这样大多的素材会集中在头部。
表情移植

3.1 图片剪裁

略，随便搭个工作流即能批量处理即可

3.2 表情移植

表情移植的一个准备工作是找到表情参考图片，方法有很多，这里列举一些：

可以自己生成一些表情图，但是通过基本模型生成的人物表情不够丰富，可以寻找一些表情LoRa.
寻找一些现成的表情参考图，如搜索关键词：Expression Sheet.

有了表情参考图后，就可以利用livePortrait进行表情移植，值得一提的是，LP在不同风格（写实、3D、2D）的表情移植上不如人意，特别是眼睛的表达上，在此，经过大量实践，得到以下工作流。

工作流图示如下：

四、丰富背景

丰富背景的方式有很多，Flux也可以利用Fill+Redux重绘的方式进行背景更换，本次采用的是IC-Light，截止写作为止，IC-Light本地部署只支持了SD15，效果上，会兼顾背景和光影效果。

工作流图示如下：

至此训练素材就生成完毕(生成过程中，其实也可以用InstantID保持脸部特征)

五、素材处理

5.1 图片大小的预处理

由于本次生成图片都是768*768，比较符合训练需要，所以实践中赞未涉及。

略

5.2 图片批量打标

很多模型训练工具都提供了打标功能，如Fluxgym、秋叶模型训练器等，但是都有其缺点，目前采用的是joy caption，注意：触发提示词尽量要用一个不常见的词，实践中用的Utwin其实并不可取。

工作流图示如下：

六、模型训练

模型训练，可以随便选一个训练器，本次实践中采用的是秋叶模型训练器。

主要参数：

每张图片训练次数/epoch，没地方设置，但是实际是5次/img，当你开始训练时，会将图片路径下的所有图片打包到一个文件夹，以times_randomtext的形式进行命名，times即表示每张图片训练多少次。
epoch总数，实践设置为10
每2epoch保存一次模型
network_dims为32
学习率：1e-4

这是第一次进行模型训练，有很多影响因素值得研究，仅这次而言。

模型明显将发型及晚礼服肩带特征学习进去，这不在目标范围，明显和素材及打标方式强相关。
脸部特征其实并没有达到我想要的程度，不过在3D风格上有意想不到的效果

实际生图效果如下：

至此，人物角色一致性的实战就到此告一段落，每个步骤都有多种方式实现，之后会尝试以视频的方式进行分享讲解，敬请期待。

ComfyUI，一致性角色实战篇最先出现在0260。

ComfyUI，Flux入门总结篇

burson — Sun, 14 Sep 2025 03:46:59 +0000

引言

本篇文章的阅读前置条件(必须)：

需阅读《ComfyUI，SD基础总结篇》

介绍内容包含：

核心概念的理解
基本工作流及主要控制模块总结

在《ComfyUI，SD基础总结篇》中，我们已经了解了 Stable Diffusion 1.5 和 SDXL。它们就像拥有精湛技艺的“雕塑家”，从“混沌石料”中一步步雕刻出令人惊叹的作品，代表着当前主流的 AI 图像生成技术。

现在，是时候揭开 AI 绘画领域另一条前沿技术路径的面纱了——介绍 Flux。Flux 不再是 SDXL 的简单升级，它代表了图像生成方式上的一种架构创新，为 AI 绘画带来了新的可能性。它并非要取代 SDXL，而是提供了一个不同的、有潜力的技术方向。

一、Flux核心理解

虽然在底层技术原理上，会有较大的区别。但在应用层的理解上，我们仍然可以使用SD15/XL的理解《ComfyUI，SD基础总结篇》，一句话：

独具特色的雕塑家拿着原始石料在设计需求说明书的指引下按某种雕塑策略进行雕塑创作，同样的，也有以下核心概念。

雕塑家：Diffusion Model，每个雕塑家都有自己的特色，如：Flux1-dev，Flux1-fill-dev，Flux1-cany/depth-dev，Flux1-kontext等。
原始石料：latent image，潜空间图像，SD1.5&SDXL&FLUX都是在潜空间进行图像生成的，至于为什么需要在潜空间中进行，最大原因是能极大的压缩空间，使得寻常硬件得以计算。总之，可以将其理解为创作所需的原始石料，以下如何获取原始石料的方式：
- 直接提供latent image，设定长宽。
- 将原始空间图像(寻常人眼感知的图片)通过VAE Encode的方式转换成潜空间图像。
作品去色/上色器：VAE Encode/Decode，将原始空间图像(人眼寻常感知的图片)转变成潜空间图像，这个过程也称为编码Encode，好比对雕塑成品进行去色，从而得到石料本体；同时也支持从潜空间图像转换成原始空间图像，这个过程称为Decode，好比对雕塑完毕的石料本体进行上色。这个去色和上色规则记录在VAE model中，即需要加载这个模型。
设计需求说明书：Text Embedding(pos + neg)，用于指导雕塑家进行雕刻，雕塑家每次雕刻都需参照设计需求说明书。如何获得需求设计说明书：
- 通过一个转换器Text Embedding Encode将自然语言(人类语言，通常是英文)转换成雕塑家能理解的设计需求说明书，转换规则被记录在CLIP model中，即需要加载这个模型。
雕塑策略：调度器(scheduler)、去噪步数(steps)，采样器(sampler)。其好比雕刻策略，先制定整个雕刻计划(“路线图”)，决定了在整个生成过程需要去除的石料应该如何逐渐减少；再定义执行步骤数量，越多，耗费时间越长，就越细致；最后，基于路线图，在每一步中具体执行雕刻动作，计算并将多余的石料进行雕刻去除。

二、核心组件/概念理解

主要介绍与SD15/XL有区别的一些组件和概念

DualCLIPLoader：和在SD15及XL中一样，Flux依然需要一个CLIP模型将自然语言转换成设计需求说明书，只是这里需要指定两个模型：CLIP_I和CLIP_T5。其设计思路与SDXL基本一致。
LoadVae：与SD15和XL不一样的是，Flux在使用上会单独指定配套的VAE模型，一般名称叫ae.sft或者ae.safetensors.
FluxGuidance：此处与SD15和XL有较大区别，对标其CFG。
- Flux将引导条件融合到一起，不再区分positive和negative。（若使用ksampler，negative可接空条件）
- 在flux的实际使用中，不再使用cfg参数，取代而代之的是guidance参数，表示条件引导的程度。（若依然使用ksampler，将其设置为1，否则会产生糊图。）
- guidance的参数值，在Flux1-dev中，一般设置为3.5，在Fill+redux组合使用中，一般在[30-50]中选择。
Redux：Flux提供的配套风格模型，就实际使用效果来说，其实就是通过Clip vision encode提取参考图的细节信息，再通过apply style model(redux模型作为规则转换器)并将其补充到设计需求说明书中，值得注意的是，redux的引导强度相当强烈，若使用原生自带的节点，基本上很难和CN及其他控制模块共同作用与图像生成，建议使用redux adv节点(实测有效)。

三、Flux工作流总结

在实践探索过程中，FLUX在思路上和SD15/XL并没有什么大的差别。先学习了基本文生图/图生图/重绘之后，再加入一些其他控制模块，主要包括：

LoRa：有一些比较有意思的LoRa，包括消除LoRa，图像编辑LoRa
IP-Adapter：对雕塑家进行增强训练(风格内容参考）
PuLID：对嗲苏佳进行增加训练(脸部参考)
Controlnet：对需求设计说明书进行补充说明
Redux：对需求设计说明书进行补充说明

这样就能得到FlUX工作流的各种变体。

本部分主要介绍内容：

FLUX.1-DEV基本工作流
FLUX.1-FILL-DEV基本工作流
Redux模块&其余控制模块，和SD15/XL其实并为太大区别

FLUX.1-cany/depth模型并无太多应用场景，此处主要对FLUX特有的模块进行进行介绍，另外对FLUX.1-DEV和FLUX.1-FILL-DEV模型进行工基本作流总结。

3.2 FLUX.1-DEV 工作流

3.2.1 基本文生图

和SD15/XL差别不大，主要区别在于：

model/clip/vae的加载方式不一样：
- model的加载节点是Load Diffusion Model
- clip是dualcliploader，需要指定一个Clip_I和T5模型
- vae也要单独指定与Flux配套的模型，ae.sft
ksampler使用变化
- 中的cfg参数固定为1(该参数已经没啥用了)，设计需求说明书的遵循程度变为了另一个flux参数：guidance，越高，约束能力越强，反之越能发挥自由度。
- 由于Flux不再区分正负prompt，使用ksampler时，neg-prompt为空即可。

3.2.2 基本图生图

没什么好说的，一般来说很少用到直接图生图的情况，目前就两种：

放大图生图重绘增加细节
粗略的风格转绘

3.2 FLUX.1-FILL-DEV工作流

3.2.1 局部重绘（inpaint）

大方向和SD15/XL类型，在使用上有以下差异：

重绘时，是用FILL模型
基本工作流中，FluxXGuidance参数一般设置为30，也可以尝试其他的。
FILL模型的所有工作流中，都建议加入一个节点Differential Diffusion，它的核心作用正是参照一个已有的图像，从而让新生成的内容在风格、色彩或氛围上与之保持协调一致。

3.2.2 扩展绘制（outpaint）

所谓的扩展绘制其实和重绘区别不大，只是不图片原有区域进行绘制，增加新的区域进行内容补充。

3.3 FLUX其他控制模块

3.3.1 一些好玩的LoRa

消除LoRa，结合FILL模型，可以很好的消除不需要的元素，也能起到修复效果。
加速LoRa，能让出图步数控制在8步甚至4步内。
编辑LoRa，结合FILL模型，能实现图像编辑效果。具体在此不再细说

3.3.2 FLUX.1-Redux-DEV 模块

Redux是Flux中特有的一个模块，使用工作流图示如下：

基于输入输出来看这个模块，其实就两个步骤：

其实就是将图片信息抽取出来(CLIP Vision Encode)，CLIP Vision模型提供抽取规则。
再将抽取的信息通过一个转化器（Apply Style Model）增加到需求设计说明书中(Embedding)，Redux模型提供转换规则。

就实践而言，Redux对整体的色彩风格、内容、结构都提取得比较到位，但是在一些细节特征上表现不太好(如脸部特征)。

3.3.3 Flux IPAdapter模块

使用上，和SD15/XL区别不大，需使用xlabs团队提供的x-flux-comfyui插件

基于输入输出来看这个模块，

其实就是先基于CLIP Vision模型的规则将图片信息抽取出，在通过FLUX Adapter模型对雕塑家(diffusion model)进行训练。

3.3.4 PuLID模块

对标FaceID，SDXL中也可使用。
使用FLUX版本需要结合PuLID-Flux-Enhanced插件使用。

用于提取脸部信息，并让雕塑家(diffusion model)增强训练学习.

3.3.5 Controlnet

没什么好说的，为设计需求说明书增加额外条件信息。

三、最后

Flux的的变体工作流基本上就是基本工作流+控制模块的灵性组合，后续有机会可能出视频或者直播进行细致讲解，敬请期待。

ComfyUI，Flux入门总结篇最先出现在0260。

ComfyUI，SD基础总结篇

burson — Wed, 09 Jul 2025 04:36:59 +0000

引言

本文对SD基础知识进行一个总结。

一、核心概念理解

在掌握了 Stable Diffusion 1.5 和 SDXL 的基础知识后，我们通过”雕塑”概念以一句话来总结一下：

独具特色的雕塑家拿着原始石料在设计需求说明书的指引下按某种雕塑策略进行雕塑创作。

雕塑家：Unet Model，每个雕塑家都有自己的特色，即每个Unet模型都有自己的特点。
原始石料：latent image，潜空间图像，SD1.5&SDXL都是在潜空间进行图像生成的，至于为什么需要在潜空间中进行，最大原因是能极大的压缩空间，使得寻常硬件得以计算。总之，可以将其理解为创作所需的原始石料，以下如何获取原始石料的方式：
- 直接提供latent image，设定长宽。
- 将原始空间图像(寻常人眼感知的图片)通过VAE Encode的方式转换成潜空间图像。
作品去色/上色器：VAE Encode/Decode，将原始空间图像(人眼寻常感知的图片)转变成潜空间图像，这个过程也称为编码Encode，好比对雕塑成品进行去色，从而得到石料本体；同时也支持从潜空间图像转换成原始空间图像，这个过程称为Decode，好比对雕塑完毕的石料本体进行上色。这个去色和上色规则记录在VAE model中，即需要加载这个模型。
设计需求说明书：Text Embedding(pos + neg)，用于指导雕塑家进行雕刻，雕塑家每次雕刻都需参照设计需求说明书。如何获得需求设计说明书：
- 通过一个转换器Text Embedding Encode将自然语言(人类语言，通常是英文)转换成雕塑家能理解的设计需求说明书，转换规则被记录在CLIP model中，即需要加载这个模型。
雕塑策略：调度器(scheduler)、去噪步数(steps)，采样器(sampler)。其好比雕刻策略，先制定整个雕刻计划(“路线图”)，决定了在整个生成过程需要去除的石料应该如何逐渐减少；再定义执行步骤数量，越多，耗费时间越长，就越细致；最后，基于路线图，在每一步中具体执行雕刻动作，计算并将多余的石料进行雕刻去除。

二、其他组件的理解

理解了核心概念，其余所有组件都可以围绕这些核心概念进行优化或补充，如：

LoRA：强化雕塑家的能力，同时对设计需求说明书中的某些概念进行补充说明。
TI：在设计需求说明书中增加概念并描述概念详细信息。
IPAdapter：让雕塑家适配能力(由参考图和IPAdapter 模型)来确定。IPAdapter首先用一个CLIP-VISION转换器，将参考图中的视觉信息提取出来，这个转换器的规则记录在CLIP-Vision 模型中。视觉信息提取出来后，再由一个适配器将视觉信息进行筛选并融入unet model中，好比对训练家进行定向训练。
ControlNet：对设计需求说明书进行约束补充(结构、姿态、构图、空间关系和物理形态等)。CN拿着控制图通过一个转换器(depth,cany类型等)将约束补充融入设计需求说明书中，转换规则记录在CN model中，一般来说，控制图的类型需要和CN model匹配。这个控制图可以通过一个预处理器(preporcessor)从原始空间图像(寻常人眼中的图像中)提取出来，提取规则记录在preprocessor model中。
InstantID：适配雕塑家的能力，并对设计需求说明书进行补充约束。会将其通过一个人脸识别模块提取人脸信息(face embedding)，通过一个转换器将face embedding融入到unet model中，这个转换规则记录在instantID model中，好比让雕塑家学习该脸部的雕刻方式。不仅如此，提取的脸部信息还会被另一个转换器融入到设计需求说明书中，转换规则记录在一个CN model中，相当于在设计需求说明书中告诉雕塑家这次要画哪张脸。另外：其实也可以看出，其实InstantID分为了3部分，一是人脸信息提取(可以有多种方式，常见如insight face)，二是让雕塑家掌握人脸的雕刻方式(类似IPAdapter)，三是在设计需求说明书中补充该人脸信息(类似Contronet)
SDXL其实也是在这些核心概念上进行了优化。
- 雕塑家 & 原始石料：SD1.5在512 x 512更为擅长，而SDXL在1024 * 1024上能够大展身手，更大的空间意味着更多的细节。
- 设计需求说明书：SD1.5是通过一个CLIP模型将自然语言转换成设计需求说明书，而SDXL通过两个CLIP模型将其转换成设计需求说明书，能更好的理解语义及空间关系。
- 雕塑策略：将执行步骤整体分为两段，前段让一个雕塑家（base model）进行雕刻，后段让另一个雕塑家(Refiner model)进行细节打磨。两个雕塑家的擅长偏向不同。
- 作品去色/上色器：毕竟石料尺寸不通，对VAE也进行的了提升，有更宽广色域和更高精度“笔刷”，它能识别并还原更微妙的色彩层次，让作品的表面光泽和纹理更加逼真，减少“塑料感”。

另外，相关参数也可围绕核心概念进行辅助理解

sampler node > seed：原始石料各种各样，而seed好比是石料的存放地址，结合长宽值，便确定具体石料。
sampler node > cfg：雕塑家对设计需求说明书的遵循程度。
sampler node > denoise strength：重绘幅度，文生图中默认为1，图生图中好比在雕刻前先往上面涂泥巴，这样才有创作空间，涂得越多，创作空间越大，和原始图像偏离程度就越高。
other node > start at/end：具体在哪一步生效，描述组件效果在雕塑策略的具体哪一步执行。
其他都可以套用这种思想去辅助咱们理解。

ComfyUI，SD基础总结篇最先出现在0260。

ComfyUI，SD控图入门篇，Controlnet&InstantID

burson — Wed, 02 Jul 2025 09:43:14 +0000

引言

Stable Difussion的作用主要是生图，而图片之所以能产生价值，一定是符合应用落地的某些需求，这就要求咱们从”随机生成”逐步迈向”精准控制”。

目前在comfyUI中，大致有这么几个主要方式可以进行控图。

模型本身，提示词，LoRA，TIIPAdapter
IPAdapter
ControlNet & InstantID

本文主要就ControlNet和InstantID进行总结

一、ControlNet

1.1 初步认识ControlNet

维度	描述
定位	如果IP-Adapter是将图片中的风格、身份特征的视觉信息进行迁移，那么ControNet就是能从参考图中，用各种专业的分析工具(预处理器)提取更多不同维度、不同层级的视觉信息，然后增强设计需求说明文档(promt embedding)，从而并引导雕塑家（Unet model）雕塑创作。
输入/输出	输入 Prompt Embedding(NEG+POS)：CLIP FOR TEXT PROMPT的输出 Control Image：引导控制图，用于约束引导雕塑过程。 ControlNet Model：将引导控制图转换成赛博雕塑世界能识别的引导手册，并给到雕塑家在雕塑过程中用于参考。输出 Prompt Embedding：被增强过的设计需求说明文档(CLIP FOR TEXT PROMPT的输出)，用于引导雕塑家(Unet Model)进行雕刻。
预处理器 (Preprocessor)	ControlNet 并没有直接理解像素图像，它首先需要一个一些分析工具。这个分析工具会分析你的原始图像，并根据你选择的 ControlNet 类型，从中提取出非常具体的、结构化的“条件图像”。条件图像大致分为以下类型结构与轮廓 Canny(边缘)：提取图像中最清晰、最锐利的边缘线。它对图像的明暗交界、颜色突变非常敏感。适用场景：需要严格保持物体形状、建筑结构、人物轮廓的精确性。 Lineart(线条艺术)：提取更具艺术感、更像手绘线稿的线条，它通常能处理主线和细节线。适用场景：将照片转绘成漫画、插画、日系动漫线条风格。 Softedge / HED / PIDS (柔和边缘）：提取更柔和、更艺术化、更不那么锐利的边缘信息，有时也能捕捉到物体间的微妙边界和阴影过渡。适用场景：希望保持大致构图，但又想给 AI 更多自由度去填充细节和风格时；避免线条过硬而影响融合。姿态与骨架 OpenPose (人体骨架）：精确检测人物的骨骼关键点、身体姿态、肢体朝向，以及手部和面部（眼睛、鼻子、嘴巴等）的关键点。适用场景：精准控制人物的动作、站姿、手势、身体朝向等，而完全不限制人物的外貌、服装和风格。构图与空间关系 Depth (深度图）：检测图像中物体到相机的距离信息。近的物体显示为白色/亮色，远的物体显示为黑色/暗色，形成一张灰度图。适用场景：保持原图的透视关系、场景景深、物体间的远近布局。（PS：我感觉用来控制人物姿态很合适） Normal Map (法线图）：检测图像中物体表面的朝向信息。它用 RGB 颜色编码了物体表面在三维空间中法线（垂直于表面的方向）的 X、Y、Z 分量。适用场景：精确引导图像的光照效果、阴影分布、物体表面的立体感和材质细节。 MLSD (直线检测）：专门检测图像中所有直线结构，例如建筑、房间、家具的边缘。适用场景：保持建筑效果图、室内设计图、几何结构图像的规整性和精确性。内容与语义 Segmentation (语义分割）：将图像中的不同物体或区域进行语义上的划分（例如识别出“人”、“车”、“树”、“天空”、“道路”等），并用不同的颜色或标签进行标注。适用场景：根据区域填充内容，例如将“蓝色区域”替换为天空，“红色区域”替换为建筑。 Shuffle (像素混洗）：将参考图像的像素特征打乱重排，然后作为条件注入。它不提取具体的结构，而是将原图的整体视觉特征（如色彩、质感、部分抽象内容）以混洗的方式传递。适用场景：粗略地借鉴参考图的整体构图、色彩和风格，同时给予 AI 很大的自由度进行内容重构。
CN 模型 (ControNet Model)	接收条件图像，并将其转换成赛博雕塑世界能理解的参考图，并以该参考图约束引导雕塑家的雕刻过程。通常来说，不同的条件图像，需要用不同的CN模型来处理。如cany则对应cany 一般的，CN模型需要对应相同版本的的Unet模型 sd15则对应sd15 SDXL则对应sdxl

1.2 CN基本工作流(depth)图示

1.3 基本节点介绍&参数理解

节点名称	描述
Apply Controlnet	CN的核心节点，整体作用是对prompt embeddng(pos+neg)进行增强，可以理解为将控制信息添加到prompt embedding(pos+neg)中，就好比在设计需求说明文档中添加各种维度的约束信息核心输入 positive：即positive prompt embedding(condition+,condition positive) negative：即negative prompt embedding(condition-,condition negative)，两者好比就是把设计需求说明书传入，进行增强补充。 image：即contronet image，如果要使用参考图(常规人眼看的图)中的控制信息(如结构，风格，光影，姿势)，通常需要一个转换工具preprocessor进行提前转换。如图中depth控制图。 Control_net：即Controlnet model，其作用就是将控制图中的信息解析并转到到prompt embedding中，好比就是从controlnet img提取出来的控制信息补充添加到设计需求说明书中。 vae：说是能提供对控制信息的编码和解码，从而提高控制信息的质量和准确性，暂无明显体感。 model：有些节点会要求传入unetmodel，仅用于判断CN model 和 model是否匹配。一般来说unet model 与 CN model 要求匹配。SD15匹配SD15,SDXL 匹配SDXL。额外控制参数 strength：对控制信息的遵循程度，默认为1. start_percent：决定该控制信息什么时间点生效。 end_percent：决定该控制信息什么时间点结束。核心输出 positive&negative：即 prompt embedding(condition+,condition positive)，也可以看做是被增强补充控制信息的设计需求说明书。
AIO AUX Preporcessor	综合的control image处理器核心输入 image：即正常的像素图片，需要将其转换成control img。 Preprcessor model：选择preprocessor的类型，不同类型的model会生成不同的control img resolusion：分辨率，默认512。个人喜欢直接设置为latent width。核心输出 image：即control image，作为Apply Controlnet节点的核心输入之一。
Load Controlnet Model	CN MODEL加载器，有两个要求不同类型的控制图需要对应的CN model 不同类型的unet mdoel 需要对应的 CN model，如SD15的unet model则需要SD15的CN model，SDXL等类推

二、InstantID

2.1 初步了解InstantID

在视觉信息中，各种维度(结构，线条，笔触，颜色，光影等)都可以通过Controlnet进行控制，只要达到大致相当我们便能接受，但当咱们需要高度保持原图中的信息时，通常达不到我们的期望，如风景还原度，人物还原度，又或是其他。

而InstantID则通过还原脸部信息，从而提高人物还原度。

重要：截止更新时间为止，InstantID适用于SDXL版本

2.2 工作流图示

2.3基本节点介绍&参数理解

节点名称	描述
InstantID Patch Attention	用于提取脸部信息，并与UNET Model进行适配，好比提取了脸部特征信息后，让雕塑家进行学习，从而获得画这张脸的能力。核心输入 image：脸部参考图，建议只用脸部区域的图。 insightface：识别人脸信息，提取face embeds model：即unet model instantid：即传入instantid model，该model的作用是将提取后的人脸信息注入到unet model中，好比让雕塑家学习这个人脸过程，具备画该脸的能力。注意：只是多了个能力，而不是只有画该脸的能力额外控制参数 ip_weight：可以理解为unet model的学习力度。 start/end_at：开始调用该能力的时间段。 noise：官方指明不加noise可能会有毁图，可能类图生图重绘，加上点泥巴后，才能更好的应用该能力，更丝滑一点。建议0.35以下，作者一般用0.2。输出 model：适配过脸部信息的unetmodel，好比已经学习过该脸部信息的雕塑家。 face embeds：脸部特征信息
Load InstantID Model	加载instantID model，官方指定了一个模型，名为ip_adpter.bin，至于为什么名为ip_adpter，说是基于IPAdapter。作为InstantID Patch Attention节点的核心输入之一。
InstantID Face Analysis	提取脸部特征的模型，专用于识别并提取脸部信息，需按照github中的指引进行下载并放置在指定路径。作为作为InstantID Patch Attention节点的核心输入之一。
InstantID Apply ControlNet	将face embeds(脸部信息)和脸部姿态(通过image_kps预处理后获得)增强补充到prompt embedding(设计需求说明书)中,告诉unet model我们要雕刻谁。实验过程中，我有这么一种理解，instantID是让雕塑家学习这张脸，但是雕塑家只是多了这么一张脸的信息，而真正雕刻时，雕刻什么样的脸是由设计需求说明书来确定。核心输入 face embeds:脸部信息 prompt embedding（pos+neg）：即设计需求说明书。 image_kps：脸部姿态关键点（眼鼻嘴）参考图像。 Controlnet：cn model，她能在设计需求说明书中奖脸部特征和脸部姿态等信息增强补充。输出 prompt embedding（pos+neg）：被补充增强的设计需求说明书，告诉unet model要画哪张脸，脸部姿态是怎么样的。
Load ControlNet Model	加载Controlnet模型。

ComfyUI，SD控图入门篇，Controlnet&InstantID最先出现在0260。

ComfyUI，SD控图入门篇，IPAdapter

burson — Tue, 24 Jun 2025 07:14:54 +0000

引言

Stable Difussion的作用主要是生图，而图片之所以能产生价值，一定是符合应用落地的某些需求，这就要求咱们从”随机生成”逐步迈向”精准控制”。

目前在comfyUI中，大致有这么几个主要方式可以进行控图。

模型本身，提示词，LoRA，TI
IPAdapter
ControlNet & InstantID

本文主要就图像条件可控-IPAdapter进行总结。

一、初步认识IPAdapter

维度	描述
定位	图像风格/内容转化师。它通过图像来影响 AI 绘画的风格、身份或视觉元素。理解全名，辅助理解其作用Image Prompt Adapter。
输入/输出	输入图像提示词 (Image)：你想提取风格或特征的参考图片 CLIP图像编码器（CLIP Vision Encoder）：（内置或需要选择编码器类型）将人类肉眼能看见的图片信息转化成赛博雕塑世界能理解的信息，可能包含：物体概念、行为概念、色彩搭配、笔触、光影特点、艺术流派、边缘、纹理、基本形状甚至人物身份信息等。模型 (MODEL)：基础的 Stable Diffusion 模型 (UNet)，好比一个雕塑家。 IPAdapter 模型 (IPAdapter Model)：IP-Adapter 自身的权重文件，负责转换和注入图像特征。好比定向训练官，拿着转化好的图片信息，定向筛选(风格或脸部信息)让雕塑家进行学习。输出一个被适配过的 MODEL，即被图像引导能力“增强”了的 UNet 模型。好比接收过定向参考训练的雕塑家。
作用点	主要作用于 UNet 模型的注意力层，让 UNet 在去噪过程中能“看到”并融合图像的视觉特征。
与pormpt关系	与文本 Prompt 并行工作，Prompt 定义“什么”，IP-Adapter 定义“像什么”

二、IPAdapter基本工作流

2.1 工作流图示

2.2 基本节点介绍及参数理解

节点名称	描述
IPAapter Advanced	好比一个训练场核心输入 img（参考图片） CLIP Vision Encoder(图像编码器)：它可以将图片转为为embedding。好比将人类世界的图片转换为赛博雕塑世界能理解的视觉信息。 model：unet模型，好比雕塑家。 IPAdapter：IPAdapter模型，好比一个定向训练官，筛选视觉信息中需要训练的部分，然后让雕塑家进行学习。额外参数输入 weight（影响权重）：控制图片风格对生成结果的总体影响强度，可以理解成雕塑家的遵循程度，0.5-0.8(平衡) weight type（影响权重策略）：在start at和start end间，weight的变化方式，如linear，就是从0到指定权重，如ease in，就是开始的时候低，后续强，依次类推。 noise（图像embedding噪声）：在对人类世界的图片进行视觉信息提取后，会在此基础上增加微量的噪声随机扰动，目的是保持整体风格的基础上，让细节表现有所不同，一般0.2以下。 start_at / end_at (指令生效时间段)：控制去噪过程中什么时候开始/结束参照风格，由于去噪过程中，前面时间通常是构图，后续增加细节，而参考的图片中也会有构图信息，为了防止构图过程中采纳风格图片，可以将开始设置延后。 embeds_scaling：图像引导的“适应性缩放”，可以理解成图像embedding的是筛选融合规则。一般选V，更多需探索。
Load CLIP VISION	加载CLIP Vision Encoder，需要选择 CLIP Vsion Encoder，作为IPAapter Advanced的核心输入之一。 ViT-L/14(Vision Transformer, Large, Patch size 14)，示例文件：clip-vit-large-patch14.safetensors，clip-vit-l-14.ckpt ViT-H/14(Vision Transformer, Huge, Patch size 14)，示例文件：clip-vit-huge-patch14.safetensors，ViT-H.safetensors ViT-G/14(Vision Transformer, Giant, Patch size 14)，示例文件：clip_g.safetensors，ViT-g-14-laion2B-s12B-b42K.safetensors 原则上G>H>L,越大能识别的信息更多。
Load Image	参考风格图片，通过CLIP Vision Encoder将其提取成视觉信息，作为IPAapter Advanced的核心输入之一。
IPAdapter Model Loader	定向训练官，用于将视觉信息定向筛选并让雕塑家(模型)学习，作为IPAapter Advanced的核心输入之一。值得一提的是，既然是从转换后的视觉信息中筛选，很大可能IPAdapter Model和CLIP Vision Encoder有匹配关系，事实也确实如此。命名形如-h的模型通常对应ViT/H 命名形如-g的模型通常对应ViT/G 其他依次类推，无特殊信息的话，如果报错，可以先尝试用ViT/H的视觉编码器。
Rescale_CFG	控制最终所有条件引导强度的核心参数。它通过校准 Prompt 和 Adapter 共同产生的“合力引导方向”的强度，来平滑高 CFG Scale 和强 Adapter 可能带来的过度引导问题，减少伪影，使图像更自然、美观。同时，在某种意义上也能达到这种效果：越低，模型自由发挥空间越高，IPAdapter的引导相对变弱。越高，模型自由发挥空间越低，IPAdapter的引导相对变强。

三、IPAdapter-FaceID

在生成图像时，除了参考风格外，常常还有这么一个场景，即：生成的作品中，如何精确地保持人物的脸部身份和特征

3.1 基本工作流

3.2 基本节点和参数理解

节点	描述
IPAdapter FaceID	与IPAdapter Advanced类似，输入有： imge，Model略 CLIP Vision Encoder略 IPAdapter模型，这其中，就有FaceID类型，又可以迁移风格，又能保留脸部特征。与FaceID配套的LoRA：据官方要求，使用FaceID的时候，一般要配合一个指定的LoRA，命名形如IPAdapter模型_lora。 Insightface：在保留脸部特征过程中，使用了insightface的能力，所以还需指定insightface。
IPAdapter Model Loader	略，同基本工作流
Load Image	略，同基本工作流
Load CLIP Vsion	略，同基本工作流
LoraLoaderModelOnly	《ComfyUI，SD小白入门篇》中提到，LoRA即会影响Unet Model，又会影响CLIP，但FaceID这里只需要影响UnetModel，如果还是通过原有的Load LoRA节点进行加载，工作流的线条连结会变得更复杂，因此，这里推荐使用LoraLoaderModelOnly节点。

ComfyUI，SD控图入门篇，IPAdapter最先出现在0260。

Hello，ComfyUI

burson — Wed, 04 Jun 2025 06:19:27 +0000

引言

本文的作用主要是搭建部署ComfyUI，并尝试构建工作流（文生图和图生图）

一、ComfyUI快速部署

1.1 选择GPU服务器厂商

这里我选择的是优云智算，价格亲民，GPU挺充足，过往选择的是AutoDL，经常遇到GPU不够的情况。

https://passport.compshare.cn/register?referral_code=4tuMbi2nPCLBv4tAtMkjvr

1.2 购买服务器实例并部署comfyUI

确认了GPU类型，个人比较倾向3090或者3080TI，无他性价比高，显存够
镜像安装，选择一个带ComfyUI的镜像，ComfyUI-Wanx-I2V，随便选一个吧

1.3 启动ComfyUI并进入应用

DONE

二、Hello，ComfyUI

2.1 文生图

2.2 图生图

Hello，ComfyUI最先出现在0260。

ComfyUI，启动

burson — Fri, 30 May 2025 07:32:23 +0000

引言

本文的目的是阐述为什么要研究ComfyUI及MVP执行路径

一、为什么要研究ComfyUI

自媒体创作过程中需要内容，而内容的表现形式就是图片或视频，ComfyUI能为内容创作赋能。
过往研究过SD WebUI，而ComfyUI更为灵活，逻辑性更强，目前社区活跃度也很高，所以选择它。

二、MVP执行路径

快速选择一家GPU服务器平台，不需要过多在意价格。
购买服务器并部署ComfyUI
输出第一张图片
输出《Hello，ComfyUI》

ComfyUI，启动最先出现在0260。