☁️OpenAI语音识别

OpenAI语言识别节点是ComfyUI LLM Party插件中提供的语音识别（ASR）节点，基于OpenAI的Whisper模型。它的作用是将输入的音频文件转换为文字，并支持多语言识别、字幕格式输出以及上下文提示优化。主要用途包括：1、将会议录音、采访、讲座等音频快速转写为文字；2、自动生成视频字幕文件（如 .srt）；3、在AI工作流中作为语音输入接口，让语音可以直接进入后续的文本处理环节（如摘要、翻译、问答）。该节点为语音转文字场景提供了高度灵活和可扩展的解决方案，非常适合多模态AI应用。

☁️OpenAI语音识别-节点参数说明

输入参数
audio	传入需要识别的音频文件（如 .wav、.mp3、.m4a），是Whisper识别的主要数据源。
输出参数
text	输出识别后的文本（字符串）。
控件参数
is_enable	布尔开关，是否启用该节点的流程执行，true 表示启用，false 表示跳过执行流程。
audio_path	指定音频文件的本地路径。若输入端未直接传入音频数据，可以通过此路径加载音频。例如D:/audio/test.wav
base_url	指定OpenAI接口的访问地址，默认为官方API地址。
api_key	OpenAI接口调用所需的身份认证Key。确保语音识别请求能成功访问服务端。

ComfyUI原生节点

ComfyUI第三方插件

☁️OpenAI语音识别

示例工作流