FantasyTalking Wav2Vec Embeds
节点功能:将一段输入语音(音频)通过 Wav2Vec2 和 FantasyTalking 模型处理,输出一个用于控制人物口型动作的视频嵌入(FANTASYTALKING_EMBEDS),可与 MimicMotionSampler 等节点联合使用,生成语音驱动的虚拟人说话动画。
输入参数
参数名称 | 说明 |
---|---|
wav2vec_model | 加载的语音特征提取模型。 |
fantasytalking_model | FantasyTalking 所需的音频投影模型,含内置 proj_model 投影网络。 |
audio | 原始音频输入,格式为 {"waveform": tensor, "sample_rate": int}。 |
输出参数
参数名称 | 说明 |
---|---|
fantasytalking_embeds | 输出包含 FantasyTalking 专用嵌入结构,包含音频特征、帧对齐长度及控制参数。 |
控件参数
参数名称 | 说明 |
---|---|
num_frames | 目标视频帧数(即输出与音频对齐的帧数)。 |
fps | 视频帧率,用于计算音频截取时长。 |
audio_scale | 音频语义引导强度。越大越依赖音频表达语义。 |
audio_cfg_scale | CFG 风格的双路径增强:>1 时启用“双推理”机制,一次使用音频,一次不使用音频条件。 |
下图为示例工作流,传入必须的参数和模型后,可以用音频驱动人物说话。