参数名称 | 说明 |
---|---|
vae | 用于将图像编码为 latent 的 VAE 模型。 |
clip_embeds | 来自 CLIP 编码的图像特征,用于增强语义一致性。 |
start_image | 起始图像,将作为起始帧进行编码。可选核心输入,为 I2V 提供参考图。 |
end_image | 结束图像,将作为最终帧引导生成趋势。建议用于双参考图生成,提升首尾一致性。 |
control_embeds | 控制信号,用于引导某些特定模型(如 Fun)的视频生成。若使用 control 模型(如 FlowEdit),需提供该项。 |
temporal_mask | 指定参考图在哪些帧中生效的时间掩码。可实现中段自由生成,首尾受参考图约束。 |
extra_latents | 额外添加的 latent 序列(如 Skyreels 使用的 A2 引导帧)。 |
WanVideo ImageToVideo Encode
输入参数
输出参数
参数名称 | 说明 |
---|---|
image_embeds | 包含编码后的视频 latent 信息、掩码、clip 上下文等结构。 |
控件参数
参数名称 | 说明 |
---|---|
width | 编码图像的宽度。必须为 8 的倍数。 |
height | 编码图像的高度。必须为 8 的倍数。 |
num_frames | 生成的视频帧数,实际将被四帧对齐处理。通常设为奇数如 81,代表 1 张参考图 + 80 帧生成。 |
noise_aug_strength | 噪声增强强度,在参考图上添加轻微噪声以增加运动感。I2V 使用时建议设为 0.1~0.3,可增强运动但保持内容稳定。 |
start_latent_strength | 开始帧 latent 强度调节系数。设置 <1 可增加生成变化,=1 表示不改变参考图引导力。 |
end_latent_strength | 结束帧 latent 强度调节系数。若存在 end_image,控制其影响力;建议与 start 相配合调节。 |
force_offload | 是否在编码后卸载 VAE 模型释放显存。显存紧张时建议启用。默认值为 True。 |
fun_or_fl2v_model | 是否启用 Fun 或 FLF2V 模式,调整帧拼接与 mask 行为。若使用官方 Fun 或 FLF2V 模型必须开启。默认 True。 |
input--------------------分割线------------------noise_aug_strength=0.03------------------分割线--------------noise_aug_strength=0.5
noise_aug_strength值越大,动感越强。但是太高的噪声会破坏原图结构,参考图信息丢失,导致生成视频失真。
首尾帧视频实现
start--------------------分割线-------------------------end--------------------分割线-------------------------output
start_latent_strength=0.5-------------分割线-------------start_latent_strength=1--------分割线---------------start_latent_strength=1
end_latent_strength=1--------------分割线-------------end_latent_strength=0.5-----------分割线-----------end_latent_strength=1
start_latent_strength=0.5--------------分割线-----------start_latent_strength=1-------------分割线--------start_latent_strength=1.5
end_latent_strength=0.5--------------分割线-----------end_latent_strength=1--------------分割线-----------end_latent_strength=1.5
当 start_latent_strength 或 end_latent_strength 设置得较低时,模型会拥有更大的自由度进行变化,生成的运动幅度更大,但首尾帧与原图像的相似度也会降低,画面整体色彩可能显得偏暗或失真。而当这两个值设置得过高时,首尾帧将高度还原输入图像,画面几乎保持不变,虽然能保证细节,但也容易导致动画感减弱,过渡生硬。
fun_or_fl2v_model开启的话则需要使用Fun / FL2V 模型,从这里选择一个就行,放入ComfyUI/models/diffusion_models文件夹。
Wan2.1-Fun-InP:
- 这是一个基于图像和文本生成视频的模型权重,并支持首尾帧图像的预测控制。相比之前社区版本在视频质量、连贯性和首尾一致性方面有了提升。
Wan2.1-Fun-Control:
- 这是一个用于视频控制生成的模型权重,支持多种控制条件,包括 Canny、Depth、Pose、MLSD 等,同时也支持基于轨迹的控制方式。
Wan2.1-FLF2V:
- 这是最新的首尾帧视频生成模型
Wan2.1-Fun-Control
文生视频
这里的控制方式类似于 ControlNet 中的 depth、openpose、canny 等控制图,不过应用在视频上,属于视频控制。
流程大致如下:首先导入一段视频,并解析其中的depth深度图。然后,通过 WanVideo Encode 节点对解析结果进行编码,生成对应的控制特征。接着,使用 WanVideo Control Embeds 节点加载并设置控制权重。最后,将这些编码与 WanVideo Empty Encode 节点生成的空白 image_embeds 一同输入到 WanVideo Sampler 中,完成最终的视频采样与生成。
在这种基于控制的 image_embeds 输入下,WanVideo Model Loader 节点中需要加载的是 Fun-Control 模型。除了模型权重不同,其他加载流程与之前使用文生视频时保持一致。
input---------------------------------------------------分割线------------------------------------------------------output
图生视频
图生视频则有三个流程,首先就是和上面文生视频一样,输入类似于controlnet的控制信息
WanVideo Empty Encode 节点生成的空白 image_embeds作为WanVideo ImageToVideo Encode节点的control_embeds输入,并且fun_or_fl2v_model设置为true
最后WanVideo Empty Encode 节点image_embeds输出作为WanVideo Sampler节点的image_embeds输入
input1 ---------------------------------分割线------------------------------input2----------------------------分割线-----------------------output
Wan2.1-FLF2V、Wan2.1-Fun-InP:
使用Wan2.1-FLF2V与之前首尾帧的区别在于WanVideo Model Loader加载的是FLF2V模型以及clip模型加载的是open-clip-xlm-roberta-large-vit-huge-14_visual_fp16.safetensors模型而不是原来的clip_vision_h模型
普通的Wan2.1 I2V模型
Wan2.1-FLF2V
Wan2.1-Fun-InP
可以看到,专门的首尾帧模型对比普通的i2v模型进行视频生成还是有优势的,普通模型的生成的视频最后几帧没有和尾帧保持一致,至于Wan2.1-FLF2V和Wan2.1-Fun-InP的生成效果就见仁见智,由大家自己选择了。