- 将首帧和尾帧编码为 latent 表示;
- 为这两帧在 latent 中打上“掩码”,告诉模型这些帧是已知的,不能被修改;
- 生成一个空白 latent 视频结构,用于后续的采样和生成。
它最终输出的是:
- 包含了首尾帧引导信息的提示词(positive / negative)
- 一个空白 latent 视频模板(但首尾已被占用)
如下图所示,上传首尾帧视频,使用wan FLF2V模型,完成首尾帧视频生成。
输入参数 | |
positive | 正向提示条件,用于引导视频内容的生成方向。 |
negative | 反向提示条件,用于抑制不希望生成的内容。 |
vae | 编解码模型, |
clip_vision_start_image | 起始帧的 CLIP 图像嵌入语义向量。 |
clip_vision_end_image | 终止帧的 CLIP 图像嵌入语义向量。同样用于增强结尾帧的语义控制,可与起始帧语义合并。 |
start_image | 起始图像序列,表示视频的开头帧。用于插值起点控制,建议尺寸一致,帧数不超过 length。 |
end_image | 结束图像序列,表示视频的结尾帧。用于插值终点控制,可实现视频内容“从 A 过渡到 B”效果。 |
输出参数 | |
positive | 包含首尾图像 latent、掩码与 CLIP vision 的正向条件向量。 |
negative | 包含相应结构信息的反向条件向量。 |
latent | 视频生成所用初始 latent 张量。 |
控件参数 | |
width | 视频帧宽度,单位像素,必须为 16 的倍数。 |
height | 视频帧高度,单位像素,必须为 16 的倍数。 |
length | 视频帧数量(时长),单位为帧。 |
batch_size | 一次生成的样本数。 |
它最终输出的是:
如下图所示,上传首尾帧视频,使用wan FLF2V模型,完成首尾帧视频生成。
可加入知识星球获取所有示例工作流
微信扫码入群,加入AIGC大家庭,与大家一起交流学习