FantasyTalking Wav2Vec Embeds

节点功能：将一段输入语音（音频）通过 Wav2Vec2 和 FantasyTalking 模型处理，输出一个用于控制人物口型动作的视频嵌入（FANTASYTALKING_EMBEDS），可与 MimicMotionSampler 等节点联合使用，生成语音驱动的虚拟人说话动画。

FantasyTalking Wav2Vec Embeds-节点参数说明

输入参数
wav2vec_model	加载的语音特征提取模型。
fantasytalking_model	FantasyTalking 所需的音频投影模型，含内置 proj_model 投影网络。
audio	原始音频输入，格式为 {"waveform": tensor, "sample_rate": int}。
输出参数
fantasytalking_embeds	输出包含 FantasyTalking 专用嵌入结构，包含音频特征、帧对齐长度及控制参数。
控件参数
num_frames	目标视频帧数（即输出与音频对齐的帧数）。
fps	视频帧率，用于计算音频截取时长。
audio_scale	音频语义引导强度。越大越依赖音频表达语义。
audio_cfg_scale	CFG 风格的双路径增强：>1 时启用“双推理”机制，一次使用音频，一次不使用音频条件。

下图为示例工作流，传入必须的参数和模型后，可以用音频驱动人物说话。

ComfyUI原生节点