节点功能:Florence2智能描述生成器 - 基于微软Florence2多模态模型,实现图像到精准文本描述的转换,支持17种不同的描述生成模式。
Prompt类最好搭配PromptGen模型使用
num_beams: 束搜索宽度是要和do_sample: 启用随机采样一起作用的。当do_sample开启后,num_beams越小,描述词更发散,num_beams越大,描述词更固定。
节点功能:Florence2智能描述生成器 - 基于微软Florence2多模态模型,实现图像到精准文本描述的转换,支持17种不同的描述生成模式。
输入参数 | |
florence2_model | 已加载的 Florence2 模型结构体,来自 LS_LoadFlorence2Model 节点。 |
image | 输入图像。支持批处理,但目前只处理首张图像。 |
输出参数 | |
text | 由模型生成的文本结果,已去除 angle brackets 内容。 |
preview_image | 处理后返回的图像。对于部分任务会包含边框或文字区域标注。 |
控件参数 | |
task | 图像理解任务类型,如“caption”、“object detection”等。 |
text_input | 附加文本输入。部分任务(如 grounding、caption-to-phrase)依赖该字段。 |
max_new_tokens | 生成文本的最大 token 数量。 |
num_beams | Beam Search 的宽度。 |
do_sample | 是否使用采样生成(temperature 控制多样性)。 |
fill_mask | 是否启用 [MASK] token 填充逻辑(用于填空任务)。 |
Prompt类最好搭配PromptGen模型使用
num_beams: 束搜索宽度是要和do_sample: 启用随机采样一起作用的。当do_sample开启后,num_beams越小,描述词更发散,num_beams越大,描述词更固定。