WanVideo ImageToVideo Encode

节点功能:将输入图像(可选起始图像、结束图像或控制嵌入)编码为视频的潜在表示(latent embeddings),用于图像到视频(I2V)生成流程

输入参数

参数名称说明
vae用于将图像编码为 latent 的 VAE 模型。
clip_embeds来自 CLIP 编码的图像特征,用于增强语义一致性。
start_image起始图像,将作为起始帧进行编码。可选核心输入,为 I2V 提供参考图。
end_image结束图像,将作为最终帧引导生成趋势。建议用于双参考图生成,提升首尾一致性。
control_embeds控制信号,用于引导某些特定模型(如 Fun)的视频生成。若使用 control 模型(如 FlowEdit),需提供该项。
temporal_mask指定参考图在哪些帧中生效的时间掩码。可实现中段自由生成,首尾受参考图约束。
extra_latents额外添加的 latent 序列(如 Skyreels 使用的 A2 引导帧)。

输出参数

参数名称说明
image_embeds包含编码后的视频 latent 信息、掩码、clip 上下文等结构。

控件参数

参数名称说明
width编码图像的宽度。必须为 8 的倍数。
height编码图像的高度。必须为 8 的倍数。
num_frames生成的视频帧数,实际将被四帧对齐处理。通常设为奇数如 81,代表 1 张参考图 + 80 帧生成。
noise_aug_strength噪声增强强度,在参考图上添加轻微噪声以增加运动感。I2V 使用时建议设为 0.1~0.3,可增强运动但保持内容稳定。
start_latent_strength开始帧 latent 强度调节系数。设置 <1 可增加生成变化,=1 表示不改变参考图引导力。
end_latent_strength结束帧 latent 强度调节系数。若存在 end_image,控制其影响力;建议与 start 相配合调节。
force_offload是否在编码后卸载 VAE 模型释放显存。显存紧张时建议启用。默认值为 True。
fun_or_fl2v_model是否启用 Fun 或 FLF2V 模式,调整帧拼接与 mask 行为。若使用官方 Fun 或 FLF2V 模型必须开启。默认 True。

input--------------------分割线------------------noise_aug_strength=0.03------------------分割线--------------noise_aug_strength=0.5

noise_aug_strength值越大,动感越强。但是太高的噪声会破坏原图结构,参考图信息丢失,导致生成视频失真。


首尾帧视频实现

start--------------------分割线-------------------------end--------------------分割线-------------------------output


start_latent_strength=0.5-------------分割线-------------start_latent_strength=1--------分割线---------------start_latent_strength=1

end_latent_strength=1--------------分割线-------------end_latent_strength=0.5-----------分割线-----------end_latent_strength=1



start_latent_strength=0.5--------------分割线-----------start_latent_strength=1-------------分割线--------start_latent_strength=1.5

end_latent_strength=0.5--------------分割线-----------end_latent_strength=1--------------分割线-----------end_latent_strength=1.5


start_latent_strength end_latent_strength 设置得较低时,模型会拥有更大的自由度进行变化,生成的运动幅度更大,但首尾帧与原图像的相似度也会降低,画面整体色彩可能显得偏暗或失真。而当这两个值设置得过高时,首尾帧将高度还原输入图像,画面几乎保持不变,虽然能保证细节,但也容易导致动画感减弱,过渡生硬。


fun_or_fl2v_model开启的话则需要使用Fun / FL2V 模型,从这里选择一个就行,放入ComfyUI/models/diffusion_models文件夹。

Wan2.1-Fun-InP

  1. 这是一个基于图像和文本生成视频的模型权重,并支持首尾帧图像的预测控制。相比之前社区版本在视频质量、连贯性和首尾一致性方面有了提升。

Wan2.1-Fun-Control

  1. 这是一个用于视频控制生成的模型权重,支持多种控制条件,包括 Canny、Depth、Pose、MLSD 等,同时也支持基于轨迹的控制方式。

Wan2.1-FLF2V:

  1. 这是最新的首尾帧视频生成模型


Wan2.1-Fun-Control

文生视频

这里的控制方式类似于 ControlNet 中的 depth、openpose、canny 等控制图,不过应用在视频上,属于视频控制

流程大致如下:首先导入一段视频,并解析其中的depth深度图。然后,通过 WanVideo Encode 节点对解析结果进行编码,生成对应的控制特征。接着,使用 WanVideo Control Embeds 节点加载并设置控制权重。最后,将这些编码与 WanVideo Empty Encode 节点生成的空白 image_embeds 一同输入到 WanVideo Sampler 中,完成最终的视频采样与生成。

在这种基于控制的 image_embeds 输入下,WanVideo Model Loader 节点中需要加载的是 Fun-Control 模型。除了模型权重不同,其他加载流程与之前使用文生视频时保持一致。

input---------------------------------------------------分割线------------------------------------------------------output


图生视频

图生视频则有三个流程,首先就是和上面文生视频一样,输入类似于controlnet的控制信息

WanVideo Empty Encode 节点生成的空白 image_embeds作为WanVideo ImageToVideo Encode节点的control_embeds输入,并且fun_or_fl2v_model设置为true

最后WanVideo Empty Encode 节点image_embeds输出作为WanVideo Sampler节点的image_embeds输入

input1 ---------------------------------分割线------------------------------input2----------------------------分割线-----------------------output


Wan2.1-FLF2V、Wan2.1-Fun-InP:

使用Wan2.1-FLF2V与之前首尾帧的区别在于WanVideo Model Loader加载的是FLF2V模型以及clip模型加载的是open-clip-xlm-roberta-large-vit-huge-14_visual_fp16.safetensors模型而不是原来的clip_vision_h模型


普通的Wan2.1 I2V模型

Wan2.1-FLF2V


Wan2.1-Fun-InP

可以看到,专门的首尾帧模型对比普通的i2v模型进行视频生成还是有优势的,普通模型的生成的视频最后几帧没有和尾帧保持一致,至于Wan2.1-FLF2VWan2.1-Fun-InP的生成效果就见仁见智,由大家自己选择了。