T5TokenizerOptions

节点功能:T5TokenizerOptions 是一个配置型节点,用于设置 T5 系列文本编码器的 tokenizer 参数,特别是对以下模型相关 tokenizer 的 最小填充(padding)和最小长度(min_length) 进行统一控制。这对于确保一致的 token 长度和模型稳定性,尤其在使用 T5 / mT5 / UMT5 系列 作为条件生成模型时非常重要。

输入参数

参数名称说明
clip已加载的文本编码器(包含 tokenizer 配置能力)。

输出参数

参数名称说明
CLIP设置完成后的 CLIP 编码器,内部 tokenizer 配置已更新。

控件参数

参数名称说明
min_padding所有 T5 类型 tokenizer 的最小语义长度,默认 0。用于指定 tokenizer 在分词后最少保留的 token 长度,确保模型接收到足够的信息。
min_length所有 T5 类型 tokenizer 的最小填充值,默认 0。控制 tokenizer 输出的最小 token 数,强制填充时生效。

如下图所示的工作流中,如果t5模型没参与编码,那么最终的编码后的tensor形状较小没做填充,而该节点可以完成0值填充使得生图过程符合模型训练的原则。