clip_scale 参数的作用是:用于计算 CLIP 模型输入的宽度和高度,以确保它与生成的 latent 图像尺寸相匹配或适配。在 SDXL 等扩散模型中,CLIP 模型用于对提示词进行编码(如正向 prompt 或反向 negative prompt)。CLIP 编码器通常需要知道目标图像的「感知尺寸」(perceived resolution),它不直接处理 latent,但它的感知图像尺寸影响其对文本的理解细节程度。
📐 clip_scale
如何运作
以 dimensions = 1024 x 1024
和 clip_scale = 2.0
为例:
clip_width = 1024 * 2.0 = 2048
clip_height = 1024 * 2.0 = 2048
最终输出的 CLIP_WIDTH = 2048
, CLIP_HEIGHT = 2048
可以作为输入传入一些支持的提示词编码器,例如:
CLIPTextEncode(clip, text, width=clip_width, height=clip_height)
这表示我们期望 CLIP 编码器理解文本时,是为一张 2048×2048 的图像服务的,但是它最终生成的图片依旧是1024×1024。