T5TokenizerOptions
节点功能:T5TokenizerOptions 是一个配置型节点,用于设置 T5 系列文本编码器的 tokenizer 参数,特别是对以下模型相关 tokenizer 的 最小填充(padding)和最小长度(min_length) 进行统一控制。这对于确保一致的 token 长度和模型稳定性,尤其在使用 T5 / mT5 / UMT5 系列 作为条件生成模型时非常重要。
输入参数
参数名称 | 说明 |
---|---|
clip | 已加载的文本编码器(包含 tokenizer 配置能力)。 |
输出参数
参数名称 | 说明 |
---|---|
CLIP | 设置完成后的 CLIP 编码器,内部 tokenizer 配置已更新。 |
控件参数
参数名称 | 说明 |
---|---|
min_padding | 所有 T5 类型 tokenizer 的最小语义长度,默认 0。用于指定 tokenizer 在分词后最少保留的 token 长度,确保模型接收到足够的信息。 |
min_length | 所有 T5 类型 tokenizer 的最小填充值,默认 0。控制 tokenizer 输出的最小 token 数,强制填充时生效。 |
如下图所示的工作流中,如果t5模型没参与编码,那么最终的编码后的tensor形状较小没做填充,而该节点可以完成0值填充使得生图过程符合模型训练的原则。