ComfyUI_LayerStyle_Advance

LayerMask: Object Detector Gemini(Advance)

节点功能:调用 Google Gemini 系列模型(1.5/2.0 版本)实现零样本目标检测,实时绘制检测结果并返回带标注框的图像。


LayerMask: Object Detector Gemini(Advance)-节点参数说明
输入参数
image输入图像列表。支持批量输入多张图像。
输出参数
bboxes每张图像的检测框列表(格式为标准化 [x1,y1,x2,y2])。
preview绘制了检测框的可视化图像结果,用于预览。
控件参数
model选择使用的 Gemini 模型版本。包含 "gemini-1.5-flash"、pro 等。
prompt用于指定检测目标的文本提示,例如 "cat" 或 "人物"。

使用该模型,首先要获取Google Gemini API,从Google AI Studio上申请 API key ,获取到API key后需要在下图中的文件中填入API key。

填完API key后保存,人后将该文件重命名为api_key.ini

填入提示词glasses,显示带有标注框的图像。