comfyui_llm_party>☁️OpenAI语音识别
comfyui_llm_party
时间:2025/11/03

☁️OpenAI语音识别

OpenAI语言识别节点是ComfyUI LLM Party插件中提供的语音识别(ASR)节点,基于OpenAI的Whisper模型。它的作用是将输入的音频文件转换为文字,并支持多语言识别、字幕格式输出以及上下文提示优化。主要用途包括:1、将会议录音、采访、讲座等音频快速转写为文字;2、自动生成视频字幕文件(如 .srt);3、在AI工作流中作为语音输入接口,让语音可以直接进入后续的文本处理环节(如摘要、翻译、问答)。该节点为语音转文字场景提供了高度灵活和可扩展的解决方案,非常适合多模态AI应用。
☁️OpenAI语音识别-节点参数说明
输入参数
audio传入需要识别的音频文件(如 .wav、.mp3、.m4a),是Whisper识别的主要数据源。
输出参数
text输出识别后的文本(字符串)。
控件参数
is_enable布尔开关,是否启用该节点的流程执行,true 表示启用,false 表示跳过执行流程。
audio_path指定音频文件的本地路径。若输入端未直接传入音频数据,可以通过此路径加载音频。例如D:/audio/test.wav
base_url指定OpenAI接口的访问地址,默认为官方API地址。
api_keyOpenAI接口调用所需的身份认证Key。确保语音识别请求能成功访问服务端。

示例工作流

广告

可加入知识星球获取所有示例工作流

广告

微信扫码入群,加入AIGC大家庭,与大家一起交流学习