(Down)load Wav2Vec Model

节点功能:会自动从 Hugging Face 下载并加载 Facebook 提供的 Wav2Vec2.0 模型,用于将语音音频转化为深度语义特征(audio embeddings),为视频生成提供音频驱动信号。

输出参数

参数名称说明
wav2vec_model包含已加载的 Wav2Vec2 模型与处理器字典。字段包括: • "model":Wav2Vec2 模型实例; • "processor":Wav2Vec2Processor; • "dtype":模型精度

控件参数

参数名称说明
model指定要加载的 Wav2Vec2 语音模型。
base_precision初始加载设备。 main_device:加载至主 GPU; offload_device:加载至显存卸载设备。
load_device模型加载时的精度格式,支持 "fp32"、"bf16"、"fp16"。

该节点会自动下载并加载模型,模型下载位置在models\transformers文件夹当中。