LatentSync1.5 Node

节点功能:用于 同步处理图像(视频帧)和音频数据,并执行推理以生成输出视频和音频。

输入参数

参数名称说明
images一组输入图像(视频帧),要求为形如 [B, H, W, C] 的张量序列。至少应包含多帧,图像应为 RGB 格式,输入前建议统一尺寸。
audio包含 waveform(Tensor)与 sample_rate(采样率)的字典对象。输入音频自动重采样至 16kHz,用于驱动唇部表情变化。

输出参数

参数名称说明
images输出图像序列(同步动画帧)。
audio处理后音频(已重采样为 16kHz)。

控件参数

参数名称说明
seed随机种子。
lips_expression范围:1.0 ~ 3.0,控制嘴部动作幅度(即 guidance scale)。建议范围 1.2~2.0,数值越高唇部越夸张。
inference_steps迭代推理步数,范围:1~999。越大生成质量越高,但耗时越长。一般设置在 10~30 足够。

输入单张图片作为参考。

lips_expression主要控制人物的嘴部动作幅度,值越大,幅度越大

inference_steps: 推理步骤数,步数越多生成的视频质量越高,但计算时间更长。