首先要下载VACE模型,在万相视频中,有两种加载方式
第一种,直接在WanVideo Model Loader节点中加载,到huggingface kijai的万相视频下载地址(这个vace模型大小7个多G),下载后放到ComfyUI/models/diffusion_models文件夹
第二种,使用VACE模型再加上一个文生视频的1.3B模型,注意:这个VACE模型和上面的VACE模型不是同一个,
到huggingface kijai的万相视频下载地址,这个VACE模型只有1.47G。
第一步,首先加载VACE模型
第二步,输入视频并获取其深度图(线稿、分割蒙版等都行),并输入一张图片作为参考风格
最后便是采样过程了,第二步中获取的深度图即作为WanVideo VACE Encode节点的input_frames,而参考图及作为该节点的ref_images输入。
这里输入的分辨率有些低,画质差一些,且都使用的低精度模型。
strength 的作用用于控制 VACE 上下文引导力强弱:
- strength 越高 → 模型更强地遵循由输入帧、参考图像、mask 生成的 VACE 上下文内容。
- strength 越低 → 模型更自由地按照当前文本提示或其他引导因素生成画面,VACE 起到的约束作用减弱。
但strength过高则会导致画面僵化、不自然、人物或背景变形严重等情况
这里将输入视频中马里奥的帽子进行分割,提示词中将其换成"绿帽子"
此时,输入的视频resize后的图片直接作为WanVideo VACE Encode节点的input_frames输入,而分割后的蒙版作为该结点的input_masks输入