GroundingDinoSAMSegment (segment anything)

节点功能:本节点使用 Grounding DINO 根据文字提示在图像中定位区域(产生边框),然后用 SAM 对这些区域进行精确分割,返回对应的图像切块与掩码(mask)。下图为在ComfyUI中常见的蒙版分割模型以及相应的效果区别。

输入参数

参数名称说明
sam_model已加载的 SAM 模型
grounding_dino_model已加载的 Grounding DINO 模型
image输入图像,支持批量

输出参数

参数名称说明
IMAGESAM 分割出的图像区域(按 box 分割)
MASK每个分割图像对应的遮罩(二值图)

控件参数

参数名称说明
prompt文本提示词(如 "a dog"、"one girl" 等)
thresholdGrounding DINO 的置信度阈值,默认 0.3,Grounding DINO 对每个文本匹配的目标区域会给出一个置信度分数。只有分数 ≥ threshold 的候选框,才会被保留下来作为有效目标进行后续的 SAM 分割。

下图为示例效果,在该节点中给出文本提示,选择将人物进行抠出,最终可以输出人物对应的蒙版以及抠图后的效果图。

注意:该模型的运作原理是会根据提示词将原图当中的像素点进行打分,所以当分值高于threshold时像素点会被选择成为蒙版输出,所以说假如识别效果不精准,可以通过更改threshold获得信息更加完整的蒙版。