WanVideo ImageToVideo Encode

节点功能：将输入图像（可选起始图像、结束图像或控制嵌入）编码为视频的潜在表示（latent embeddings），用于图像到视频（I2V）生成流程

输入参数

参数名称	说明
vae	用于将图像编码为 latent 的 VAE 模型。
clip_embeds	来自 CLIP 编码的图像特征，用于增强语义一致性。
start_image	起始图像，将作为起始帧进行编码。可选核心输入，为 I2V 提供参考图。
end_image	结束图像，将作为最终帧引导生成趋势。建议用于双参考图生成，提升首尾一致性。
control_embeds	控制信号，用于引导某些特定模型（如 Fun）的视频生成。若使用 control 模型（如 FlowEdit），需提供该项。
temporal_mask	指定参考图在哪些帧中生效的时间掩码。可实现中段自由生成，首尾受参考图约束。
extra_latents	额外添加的 latent 序列（如 Skyreels 使用的 A2 引导帧）。

输出参数

参数名称	说明
image_embeds	包含编码后的视频 latent 信息、掩码、clip 上下文等结构。

控件参数

参数名称	说明
width	编码图像的宽度。必须为 8 的倍数。
height	编码图像的高度。必须为 8 的倍数。
num_frames	生成的视频帧数，实际将被四帧对齐处理。通常设为奇数如 81，代表 1 张参考图 + 80 帧生成。
noise_aug_strength	噪声增强强度，在参考图上添加轻微噪声以增加运动感。I2V 使用时建议设为 0.1~0.3，可增强运动但保持内容稳定。
start_latent_strength	开始帧 latent 强度调节系数。设置 <1 可增加生成变化，=1 表示不改变参考图引导力。
end_latent_strength	结束帧 latent 强度调节系数。若存在 end_image，控制其影响力；建议与 start 相配合调节。
force_offload	是否在编码后卸载 VAE 模型释放显存。显存紧张时建议启用。默认值为 True。
fun_or_fl2v_model	是否启用 Fun 或 FLF2V 模式，调整帧拼接与 mask 行为。若使用官方 Fun 或 FLF2V 模型必须开启。默认 True。

input--------------------分割线------------------noise_aug_strength=0.03------------------分割线--------------noise_aug_strength=0.5

noise_aug_strength值越大，动感越强。但是太高的噪声会破坏原图结构，参考图信息丢失，导致生成视频失真。

首尾帧视频实现

start--------------------分割线-------------------------end--------------------分割线-------------------------output

start_latent_strength=0.5-------------分割线-------------start_latent_strength=1--------分割线---------------start_latent_strength=1

end_latent_strength=1--------------分割线-------------end_latent_strength=0.5-----------分割线-----------end_latent_strength=1

start_latent_strength=0.5--------------分割线-----------start_latent_strength=1-------------分割线--------start_latent_strength=1.5

end_latent_strength=0.5--------------分割线-----------end_latent_strength=1--------------分割线-----------end_latent_strength=1.5

当 start_latent_strength 或 end_latent_strength 设置得较低时，模型会拥有更大的自由度进行变化，生成的运动幅度更大，但首尾帧与原图像的相似度也会降低，画面整体色彩可能显得偏暗或失真。而当这两个值设置得过高时，首尾帧将高度还原输入图像，画面几乎保持不变，虽然能保证细节，但也容易导致动画感减弱，过渡生硬。

fun_or_fl2v_model开启的话则需要使用Fun / FL2V 模型，从这里选择一个就行，放入ComfyUI/models/diffusion_models文件夹。

Wan2.1-Fun-InP：

这是一个基于图像和文本生成视频的模型权重，并支持首尾帧图像的预测控制。相比之前社区版本在视频质量、连贯性和首尾一致性方面有了提升。

Wan2.1-Fun-Control：

这是一个用于视频控制生成的模型权重，支持多种控制条件，包括 Canny、Depth、Pose、MLSD 等，同时也支持基于轨迹的控制方式。

Wan2.1-FLF2V:

这是最新的首尾帧视频生成模型

Wan2.1-Fun-Control

文生视频

这里的控制方式类似于 ControlNet 中的 depth、openpose、canny 等控制图，不过应用在视频上，属于视频控制。

流程大致如下：首先导入一段视频，并解析其中的depth深度图。然后，通过 WanVideo Encode 节点对解析结果进行编码，生成对应的控制特征。接着，使用 WanVideo Control Embeds 节点加载并设置控制权重。最后，将这些编码与 WanVideo Empty Encode 节点生成的空白 image_embeds 一同输入到 WanVideo Sampler 中，完成最终的视频采样与生成。

在这种基于控制的 image_embeds 输入下，WanVideo Model Loader 节点中需要加载的是 Fun-Control 模型。除了模型权重不同，其他加载流程与之前使用文生视频时保持一致。

input---------------------------------------------------分割线------------------------------------------------------output

图生视频

图生视频则有三个流程，首先就是和上面文生视频一样，输入类似于controlnet的控制信息

WanVideo Empty Encode 节点生成的空白 image_embeds作为WanVideo ImageToVideo Encode节点的control_embeds输入，并且fun_or_fl2v_model设置为true

最后WanVideo Empty Encode 节点image_embeds输出作为WanVideo Sampler节点的image_embeds输入

input1 ---------------------------------分割线------------------------------input2----------------------------分割线-----------------------output

Wan2.1-FLF2V、Wan2.1-Fun-InP:

使用Wan2.1-FLF2V与之前首尾帧的区别在于WanVideo Model Loader加载的是FLF2V模型以及clip模型加载的是open-clip-xlm-roberta-large-vit-huge-14_visual_fp16.safetensors模型而不是原来的clip_vision_h模型

普通的Wan2.1 I2V模型

Wan2.1-FLF2V

Wan2.1-Fun-InP

可以看到，专门的首尾帧模型对比普通的i2v模型进行视频生成还是有优势的，普通模型的生成的视频最后几帧没有和尾帧保持一致，至于Wan2.1-FLF2V和Wan2.1-Fun-InP的生成效果就见仁见智，由大家自己选择了。

上一篇：WanVideo ClipVision Encode 下一篇：Load WanVideo Clip Encoder