Batch CLIPSeg

节点功能:用于处理单张图像或批量图像,根据文本描述生成对应的掩码。它使用CLIPSeg模型,这是一种基于CLIP的图像分割模型,能够根据文本提示识别图像中的特定区域。

输入参数

参数名称说明
images输入图像张量(支持单张或多张图像)
opt_model可选传入已加载的 CLIPSeg 模型(节省加载时间)。
prev_mask可选先前掩码,用于叠加当前结果。

输出参数

参数名称说明
MaskCLIPSeg 预测生成的掩码结果。
Image应用掩码后的图像结果(背景透明处理)。

控件参数

参数名称说明
text文本提示,描述要分割的目标对象。
threshold阈值,控制掩码判定的敏感度。较低值更宽松,较高值更严格,推荐范围 0.3~0.8。
binary_mask是否输出二值掩码(True 为 0/1,False 为灰度)。一般用于后续作为布尔遮罩使用,若需软掩码融合可设为 False。
combine_mask是否将多张图像掩码合并为一张。
use_cuda是否使用 CUDA(GPU)进行推理。
blur_sigma高斯模糊强度(默认 0.0)。可平滑边缘,使分割更自然。推荐范围 0.5~3.0。
image_bg_level背景区域填充值(0 为黑,1 为白)。
invert是否反转掩码(1 变为 0,0 变为 1)。

注意:二值蒙版指的是蒙版只有黑和白两种情况,所以边缘不存在过度,假如是灰度值蒙版,则蒙版值为0-1之间的过度值,存在黑到白的灰色过度。

如下图所示我们输入文本为“cup”(杯子),然后根据我们输入的语义去进行图像的分割最终输出分割的蒙版,因为选择的是二值化蒙版,所以边缘存在明显的锯齿


binary_mask关闭后,蒙版就不是纯白了,会有灰色过渡。


threshold : 分割阈值,影响分割结果,可通过该值调整蒙版的精细程度。值越大,分割越精准,但是容易漏检目标。


combine_mask开启后,可以将多个蒙版进行合并。


blur_sigma:用于对蒙版进行高斯模糊处理,值越大越模糊。


image_bg_level:图像的背景层次,0则背景全黑,1.0则背景全白。


invert:是否反转蒙版