SONIC_PreData

节点功能:主要用于预处理音频、图像,并生成 Sonic 模型所需的数据。

输入参数

参数名称说明
clip_vision传入一个类型为 CLIP_VISION 的视觉模型,用于图像和音频的对比学习或映射。
vae传入一个变分自编码器(VAE),用于图像的编码和解码操作。
audio传入音频数据,类型为 AUDIO,包含音频波形等信息。
image传入图像数据,类型为 IMAGE,包含图像内容。
weight_dtype数据类型,决定了在计算过程中使用的精度(如浮动精度等)。

输出参数

参数名称说明
data_dict返回一个字典 SONIC_PREDATA,包含多个数据字段(如 test_data、ref_tensor_list、config、image_embeddings 等),这些数据用于进一步的处理或推理。

控件参数

参数名称说明
min_resolution图像最小分辨率,控制图像缩放大小。
duration音频的持续时间,影响音频处理的范围。
expand_ratio面部裁剪时,图像裁剪区域的扩展比例。

下图为示例内容,该节点根据传入的模型参数以及图片进行预处理数据的生成。