FantasyTalking Wav2Vec Embeds

节点功能:将一段输入语音(音频)通过 Wav2Vec2 和 FantasyTalking 模型处理,输出一个用于控制人物口型动作的视频嵌入(FANTASYTALKING_EMBEDS),可与 MimicMotionSampler 等节点联合使用,生成语音驱动的虚拟人说话动画。

输入参数

参数名称说明
wav2vec_model加载的语音特征提取模型。
fantasytalking_modelFantasyTalking 所需的音频投影模型,含内置 proj_model 投影网络。
audio原始音频输入,格式为 {"waveform": tensor, "sample_rate": int}。

输出参数

参数名称说明
fantasytalking_embeds输出包含 FantasyTalking 专用嵌入结构,包含音频特征、帧对齐长度及控制参数。

控件参数

参数名称说明
num_frames目标视频帧数(即输出与音频对齐的帧数)。
fps视频帧率,用于计算音频截取时长。
audio_scale音频语义引导强度。越大越依赖音频表达语义。
audio_cfg_scaleCFG 风格的双路径增强:>1 时启用“双推理”机制,一次使用音频,一次不使用音频条件。

下图为示例工作流,传入必须的参数和模型后,可以用音频驱动人物说话。