image_2 作为辅助视觉语义输入时,无论 strength_2 设置多高,生成的视频依然主要保留 image_1 的视觉特征。这种融合方式不同于首尾帧插值式的过渡,而是在进入采样器之前就完成了特征层级的融合,并且始终以 image_1 为主导。
image_1------------------------分割线-------------------------image_2------------------------分割线-------------------------output
从输出来看,完全看不到image_2的特征。
当crop为center,且tiles=0时,节点会对图像进行224x224中心裁剪。而当tiles>0时,则会图像进行分块编码。比如tiles=2,则代表对图像每边切两块,最终共 4 块。tiles越大精度越高,但耗时越久、显存占用更高。
假设你输入一张 512×512 的图,设置:tiles=2,ratio=0.3,则会把图切成 4 块,每块编码,然后融合时:
- 30% 来源于整图(可能是中心 crop)的 embedding
- 70% 来源于 4 块 tile 的 embedding 融合