ComfyUI-Index-TTS
时间:2025/07/26
Index TTS
节点功能:该节点用于把输入的文本(text)变成语音(Audio),并输出生成时用到的随机种子(seed)和带有简易时间轴的字幕(SimplifiedSubtitle)。
Index TTS-节点参数说明
输入参数 | |
reference_audio | 参考音频,用于提取说话人的音色/风格,使生成语音克隆或相似于此音频。 |
输出参数 | |
audio | 合成语音的音频数据。 |
seed | 随机种子,确定合成时的随机性。相同的参数和种子会生成一致的语音。 |
SimplifiedSubtitle | 附带简易时间轴的字幕文本(对应语音分段)。 |
控件参数 | |
text | 要转换成语音的文本内容,支持多行。 |
model_version | 模型版本选择,可选项:Index-TTS: 原始模型版本(默认),IndexTTS-1.5: 新版本模型。 |
language | 指定语音生成的语言,auto: 自动检测语言(默认),zh: 中文,en: 英文。 |
speed | 语速因子(0.5~2.0,默认1.0)。 |
seed | 随机数种子。 |
temperature | 多样性控制(默认1.0, 0.1~1.5),高温度输出更活跃/多变,低温度更“死板”。 |
top_p | 采样时保留概率前p的token(默认0.8, 0.0~1.0),控制生成内容的多样性 |
top_k | 每步只从概率最高的k个token中采样(默认30,1~100),限制结果多样性。 |
repetition_penalty | 惩罚重复生成(默认10.0, 1.0~15.0),数值越大越不容易重复。 |
length_penalty | 惩罚生成文本的长度(默认0, -5.0~5.0),正数生成更短,负数更长。 |
num_beams | beam search束宽(默认3, 1~10),越大生成越“精细”,速度越慢 |
max_mel_tokens | 最大梅尔声谱图token数(默认600, 100~1500),影响最大音频长度。 |
sentence_split | 句子分割方式(默认auto),auto自动分句,ma-nual需用户分割。 |