LatentSync1.5 Node

节点功能：用于同步处理图像（视频帧）和音频数据，并执行推理以生成输出视频和音频。

参数名称	说明
images	一组输入图像（视频帧），要求为形如 [B, H, W, C] 的张量序列。至少应包含多帧，图像应为 RGB 格式，输入前建议统一尺寸。
audio	包含 waveform（Tensor）与 sample_rate（采样率）的字典对象。输入音频自动重采样至 16kHz，用于驱动唇部表情变化。

参数名称	说明
images	输出图像序列（同步动画帧）。
audio	处理后音频（已重采样为 16kHz）。

参数名称	说明
seed	随机种子。
lips_expression	范围：1.0 ~ 3.0，控制嘴部动作幅度（即 guidance scale）。建议范围 1.2~2.0，数值越高唇部越夸张。
inference_steps	迭代推理步数，范围：1~999。越大生成质量越高，但耗时越长。一般设置在 10~30 足够。

输入单张图片作为参考。

lips_expression主要控制人物的嘴部动作幅度，值越大，幅度越大

inference_steps: 推理步骤数，步数越多生成的视频质量越高，但计算时间更长。