WanVideo ClipVision Encode
节点功能:从图像中提取 CLIP 特征向量(embeddings)
输入参数
参数名称 | 说明 |
---|---|
clip_vision | 用于图像编码的 CLIP Vision 模型。 |
image_1 | 需要编码的主图像。 |
image_2 | 第二张图像(可选),用于融合编码。 |
negative_image | 用于生成负面提示编码的图像。 |
输出参数
参数名称 | 说明 |
---|---|
image_embeds | 包含正向和负向 clip 编码的字典结构。 |
控件参数
参数名称 | 说明 |
---|---|
strength_1 | image_1 的特征权重倍增。控制主图像的提示影响力,建议 1.0~1.5。 |
strength_2 | image_2 的特征权重倍增。当使用 image_2 时有效,建议与 strength_1 区分控制。 |
crop | 是否裁剪图像为 224x224 再编码。center 为裁剪居中,disabled 表示保持原尺寸。建议保持默认。 |
combine_embeds | 多图编码合并方式。包括:average、sum、concat、batch。- average:适合融合 - sum:增强整体强度 - concat:扩展维度 - batch:按批输出。 推荐 average 或 batch。 |
force_offload | 编码完成后是否卸载 CLIP 模型释放显存。显存有限时建议开启。默认启用。 |
tiles | 使用 tiled encoding 的块数(Matteo 算法)。 |
ratio | tiled 区块平均的比例权重。 |
image_2 作为辅助视觉语义输入时,无论 strength_2 设置多高,生成的视频依然主要保留 image_1 的视觉特征。这种融合方式不同于首尾帧插值式的过渡,而是在进入采样器之前就完成了特征层级的融合,并且始终以 image_1 为主导。
image_1------------------------分割线-------------------------image_2------------------------分割线-------------------------output
从输出来看,完全看不到image_2的特征。
当crop为center,且tiles=0时,节点会对图像进行224x224中心裁剪。而当tiles>0时,则会图像进行分块编码。比如tiles=2,则代表对图像每边切两块,最终共 4 块。tiles越大精度越高,但耗时越久、显存占用更高。
假设你输入一张 512×512 的图,设置:tiles=2,ratio=0.3,则会把图切成 4 块,每块编码,然后融合时:
- 30% 来源于整图(可能是中心 crop)的 embedding
- 70% 来源于 4 块 tile 的 embedding 融合