WanVideo ClipVision Encode

节点功能：从图像中提取 CLIP 特征向量（embeddings）

WanVideo ClipVision Encode-节点参数说明

输入参数
clip_vision	用于图像编码的 CLIP Vision 模型。
image_1	需要编码的主图像。
image_2	第二张图像（可选），用于融合编码。
negative_image	用于生成负面提示编码的图像。
输出参数
image_embeds	包含正向和负向 clip 编码的字典结构。
控件参数
strength_1	image_1 的特征权重倍增。控制主图像的提示影响力，建议 1.0~1.5。
strength_2	image_2 的特征权重倍增。当使用 image_2 时有效，建议与 strength_1 区分控制。
crop	是否裁剪图像为 224x224 再编码。center 为裁剪居中，disabled 表示保持原尺寸。建议保持默认。
combine_embeds	多图编码合并方式。包括：average、sum、concat、batch。- average：适合融合 - sum：增强整体强度 - concat：扩展维度 - batch：按批输出。推荐 average 或 batch。
force_offload	编码完成后是否卸载 CLIP 模型释放显存。显存有限时建议开启。默认启用。
tiles	使用 tiled encoding 的块数（Matteo 算法）。
ratio	tiled 区块平均的比例权重。

image_2 作为辅助视觉语义输入时，无论 strength_2 设置多高，生成的视频依然主要保留 image_1 的视觉特征。这种融合方式不同于首尾帧插值式的过渡，而是在进入采样器之前就完成了特征层级的融合，并且始终以 image_1 为主导。

image_1------------------------分割线-------------------------image_2------------------------分割线-------------------------output

从输出来看，完全看不到image_2的特征。

当crop为center，且tiles=0时，节点会对图像进行224x224中心裁剪。而当tiles>0时，则会图像进行分块编码。比如tiles=2，则代表对图像每边切两块，最终共 4 块。tiles越大精度越高，但耗时越久、显存占用更高。

假设你输入一张 512×512 的图，设置：tiles=2，ratio=0.3，则会把图切成 4 块，每块编码，然后融合时：

30% 来源于整图（可能是中心 crop）的 embedding
70% 来源于 4 块 tile 的 embedding 融合

ComfyUI原生节点

ComfyUI第三方插件

WanVideo ClipVision Encode