插
件
列
表

ComfyUI原生节点

ComfyUI第三方插件

was-node-suite-comfyui

时间：2025/11/07

BLIP Analyze Image

该节点用于对输入图像进行自然语言描述或问答分析。提供两种工作模式：caption：自动为图像生成描述性文字。interrogate：基于用户提供的问题，对图像进行视觉问答（VQA），输出答案。

BLIP Analyze Image-节点参数说明

输入参数
images	输入的图像张量序列。节点会遍历其中的每一张图像，转为PIL后送入BLIP模型处理。注意：需要确保图像张量格式与转换函数兼容，且模型以 RGB 输入。
blip_model	提供一个已经加载好的BLIP模型。
输出参数
FULL_CAPTIONS	一个合并字符串，按处理顺序拼接各条 caption/answer，中间以空行分隔。
CAPTIONS	列表形式，每个元素对应一张输入图像的单条文本。
控件参数
mode	工作模式选择，包括"caption"：对图像进行自由描述，生成自然语言说明；"interrogate"：对图像进行问答，需要结合 question 参数。
question	仅在 mode="interrogate" 时使用，作为对图像提出的问题。默认问题是“What does the background consist of？背景由什么组成？”。建议尽量明确、具体，例如：“What color is the car?”（车是什么颜色？）
min_length	生成文本的最小长度约束（以token计），默认24，范围1~1024。数值越大，输出越不会过短，但可能引入冗余。建议：caption模式：20-30起步，图像复杂时可上调。interrogate模式：若希望简明回答，可适当降低，如10-20。
max_length	生成文本的最大长度，默认64，范围2~1024。过小可能截断信息，过大可能冗长或跑偏。建议：caption：64-128常用；简要描述用48-64。interrogate：一般32-64足够，追求简洁可24-48。
num_beams	Beam Search的束宽。越大越可能提升质量与一致性，但速度更慢。建议：快速出结果：3-5，重质量：6-8（代价是更慢）。
no_repeat_ngram_size	解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式，范围：1~12。若发现重复严重可上调到4；若需要更自由的生成可下调到2。
early_stopping	Beam Search的早停标志。True时在满足停止条件后尽早结束。优点：加快生成、避免过长；缺点：在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性；interrogate追求简洁可设True。

工作流示例：

可加入知识星球获取所有示例工作流

微信扫码入群，加入AIGC大家庭，与大家一起交流学习