参数名称 | 说明 |
---|---|
images | 一组输入图像(视频帧),要求为形如 [B, H, W, C] 的张量序列。至少应包含多帧,图像应为 RGB 格式,输入前建议统一尺寸。 |
audio | 包含 waveform(Tensor)与 sample_rate(采样率)的字典对象。输入音频自动重采样至 16kHz,用于驱动唇部表情变化。 |
LatentSync1.5 Node
节点功能:用于 同步处理图像(视频帧)和音频数据,并执行推理以生成输出视频和音频。
输入参数
输出参数
参数名称 | 说明 |
---|---|
images | 输出图像序列(同步动画帧)。 |
audio | 处理后音频(已重采样为 16kHz)。 |
控件参数
参数名称 | 说明 |
---|---|
seed | 随机种子。 |
lips_expression | 范围:1.0 ~ 3.0,控制嘴部动作幅度(即 guidance scale)。建议范围 1.2~2.0,数值越高唇部越夸张。 |
inference_steps | 迭代推理步数,范围:1~999。越大生成质量越高,但耗时越长。一般设置在 10~30 足够。 |
输入单张图片作为参考。
lips_expression主要控制人物的嘴部动作幅度,值越大,幅度越大
inference_steps: 推理步骤数,步数越多生成的视频质量越高,但计算时间更长。