comfyui_llm_party
时间:2025/11/03
☁️OpenAI语音识别
OpenAI语言识别节点是ComfyUI LLM Party插件中提供的语音识别(ASR)节点,基于OpenAI的Whisper模型。它的作用是将输入的音频文件转换为文字,并支持多语言识别、字幕格式输出以及上下文提示优化。主要用途包括:1、将会议录音、采访、讲座等音频快速转写为文字;2、自动生成视频字幕文件(如 .srt);3、在AI工作流中作为语音输入接口,让语音可以直接进入后续的文本处理环节(如摘要、翻译、问答)。该节点为语音转文字场景提供了高度灵活和可扩展的解决方案,非常适合多模态AI应用。
☁️OpenAI语音识别-节点参数说明
| 输入参数 | |
| audio | 传入需要识别的音频文件(如 .wav、.mp3、.m4a),是Whisper识别的主要数据源。 |
| 输出参数 | |
| text | 输出识别后的文本(字符串)。 |
| 控件参数 | |
| is_enable | 布尔开关,是否启用该节点的流程执行,true 表示启用,false 表示跳过执行流程。 |
| audio_path | 指定音频文件的本地路径。若输入端未直接传入音频数据,可以通过此路径加载音频。例如D:/audio/test.wav |
| base_url | 指定OpenAI接口的访问地址,默认为官方API地址。 |
| api_key | OpenAI接口调用所需的身份认证Key。确保语音识别请求能成功访问服务端。 |

