was-node-suite-comfyui
时间:2025/11/07
BLIP Analyze Image
该节点用于对输入图像进行自然语言描述或问答分析。提供两种工作模式:caption:自动为图像生成描述性文字。interrogate:基于用户提供的问题,对图像进行视觉问答(VQA),输出答案。
BLIP Analyze Image-节点参数说明
| 输入参数 | |
| images | 输入的图像张量序列。节点会遍历其中的每一张图像,转为PIL后送入BLIP模型处理。注意:需要确保图像张量格式与转换函数兼容,且模型以 RGB 输入。 |
| blip_model | 提供一个已经加载好的BLIP模型。 |
| 输出参数 | |
| FULL_CAPTIONS | 一个合并字符串,按处理顺序拼接各条 caption/answer,中间以空行分隔。 |
| CAPTIONS | 列表形式,每个元素对应一张输入图像的单条文本。 |
| 控件参数 | |
| mode | 工作模式选择,包括"caption":对图像进行自由描述,生成自然语言说明;"interrogate":对图像进行问答,需要结合 question 参数。 |
| question | 仅在 mode="interrogate" 时使用,作为对图像提出的问题。默认问题是“What does the background consist of?背景由什么组成?”。建议尽量明确、具体,例如:“What color is the car?”(车是什么颜色?) |
| min_length | 生成文本的最小长度约束(以token计),默认24,范围1~1024。数值越大,输出越不会过短,但可能引入冗余。建议:caption模式:20-30起步,图像复杂时可上调。interrogate模式:若希望简明回答,可适当降低,如10-20。 |
| max_length | 生成文本的最大长度,默认64,范围2~1024。过小可能截断信息,过大可能冗长或跑偏。建议:caption:64-128常用;简要描述用48-64。interrogate:一般32-64足够,追求简洁可24-48。 |
| num_beams | Beam Search的束宽。越大越可能提升质量与一致性,但速度更慢。建议:快速出结果:3-5,重质量:6-8(代价是更慢)。 |
| no_repeat_ngram_size | 解码时避免重复的n-gram大小。默认3可以有效减少啰嗦和重复句式,范围:1~12。若发现重复严重可上调到4;若需要更自由的生成可下调到2。 |
| early_stopping | Beam Search的早停标志。True时在满足停止条件后尽早结束。优点:加快生成、避免过长;缺点:在某些情况下可能减少多样性或覆盖不全。一般caption设为False以保证完整性;interrogate追求简洁可设True。 |

