WanVideo ClipVision Encode

节点功能:从图像中提取 CLIP 特征向量(embeddings)

输入参数

参数名称说明
clip_vision用于图像编码的 CLIP Vision 模型。
image_1需要编码的主图像。
image_2第二张图像(可选),用于融合编码。
negative_image用于生成负面提示编码的图像。

输出参数

参数名称说明
image_embeds包含正向和负向 clip 编码的字典结构。

控件参数

参数名称说明
strength_1image_1 的特征权重倍增。控制主图像的提示影响力,建议 1.0~1.5。
strength_2image_2 的特征权重倍增。当使用 image_2 时有效,建议与 strength_1 区分控制。
crop是否裁剪图像为 224x224 再编码。center 为裁剪居中,disabled 表示保持原尺寸。建议保持默认。
combine_embeds多图编码合并方式。包括:average、sum、concat、batch。- average:适合融合 - sum:增强整体强度 - concat:扩展维度 - batch:按批输出。 推荐 average 或 batch。
force_offload编码完成后是否卸载 CLIP 模型释放显存。显存有限时建议开启。默认启用。
tiles使用 tiled encoding 的块数(Matteo 算法)。
ratiotiled 区块平均的比例权重。

image_2 作为辅助视觉语义输入时,无论 strength_2 设置多高,生成的视频依然主要保留 image_1 的视觉特征。这种融合方式不同于首尾帧插值式的过渡,而是在进入采样器之前就完成了特征层级的融合,并且始终以 image_1 为主导。


image_1------------------------分割线-------------------------image_2------------------------分割线-------------------------output

从输出来看,完全看不到image_2的特征。


cropcenter,tiles=0时,节点会对图像进行224x224中心裁剪。而当tiles>0时,则会图像进行分块编码。比如tiles=2,则代表对图像每边切两块,最终共 4 块。tiles越大精度越高,但耗时越久、显存占用更高。

假设你输入一张 512×512 的图,设置:tiles=2,ratio=0.3,则会把图切成 4 块,每块编码,然后融合时:

  1. 30% 来源于整图(可能是中心 crop)的 embedding
  2. 70% 来源于 4 块 tile 的 embedding 融合