WanVideo VACE Encode

节点功能:该节点负责将视频帧(或参考图像)编码为 VACE(Video-Aware Conditional Embedding)上下文嵌入,用于引导图像到视频的生成任务。

输入参数

参数名称说明
vae加载的 WanVAE 模型。
input_frames(可选)待编码的视频帧图像,格式为 4D 张量 (T, H, W, C)。
ref_images(可选)参考图像,用于辅助编码,增强背景/风格一致性。
input_masks(可选)输入掩码,指示哪些区域需要编码。
prev_vace_embeds(可选)前一阶段的 VACE 编码结果,可实现多阶段叠加或连接上下文。

输出参数

参数名称说明
vace_embeds包含编码结果、参考信息、控制参数的结构化 VACE 编码输出。

控件参数

参数名称说明
width编码图像的宽度,单位为像素。通常应设为生成目标的分辨率宽度,必须是 16 的倍数,否则会被自动向下取整。推荐结合模型最大支持分辨率设置,例如 832
height编码图像的高度,单位为像素。同上。
num_frames要编码的帧数。
strength控制编码强度,值越大对结果影响越强。
vace_start_percent从哪个百分比位置开始应用 VACE 编码(0.0-1.0 之间)。
vace_end_percent到哪个百分比位置结束应用 VACE 编码(0.0-1.0 之间)。
tiled_vae是否启用分块编码模式以减少显存占用。开启后将逐块处理图像,减少显存压力,适合大分辨率或 VRAM 紧张时使用,但速度会变慢。

首先要下载VACE模型,在万相视频中,有两种加载方式

第一种,直接在WanVideo Model Loader节点中加载,到huggingface kijai的万相视频下载地址(这个vace模型大小7个多G),下载后放到ComfyUI/models/diffusion_models文件夹

第二种,使用VACE模型再加上一个文生视频的1.3B模型,注意:这个VACE模型和上面的VACE模型不是同一个,

到huggingface kijai的万相视频下载地址,这个VACE模型只有1.47G。

第一步,首先加载VACE模型

第二步输入视频并获取其深度图(线稿、分割蒙版等都行),并输入一张图片作为参考风格

最后便是采样过程了,第二步中获取的深度图即作为WanVideo VACE Encode节点的input_frames,而参考图及作为该节点的ref_images输入。

这里输入的分辨率有些低,画质差一些,且都使用的低精度模型。

strength 的作用用于控制 VACE 上下文引导力强弱:

  1. strength 越高 → 模型更强地遵循由输入帧、参考图像、mask 生成的 VACE 上下文内容。
  2. strength 越低 → 模型更自由地按照当前文本提示或其他引导因素生成画面,VACE 起到的约束作用减弱。

strength过高则会导致画面僵化、不自然、人物或背景变形严重等情况

这里将输入视频中马里奥的帽子进行分割,提示词中将其换成"绿帽子"

此时,输入的视频resize后的图片直接作为WanVideo VACE Encode节点的input_frames输入,而分割后的蒙版作为该结点的input_masks输入