ComfyUI_LayerStyle_Advance

LayerUtility: Llama Vision(Advance)

节点功能:基于 Llama 3.2 11B Vision 模型的多模态图像理解和生成文本描述。


LayerUtility: Llama Vision(Advance)-节点参数说明
输入参数
image输入图像,可为单张或多张图像。
输出参数
text每张图像的生成文本描述,按列表输出。
控件参数
model使用的视觉语言模型,目前仅支持 Llama-3.2-11B-Vision-Instruct-nf4。
system_prompt系统设定提示词,用于设定模型行为,如:“You are a helpful AI assistant.”。
user_prompt用户提示词,用于描述任务目的,如“Describe this image in natural language.”。
max_new_tokens最多生成的 token 数。
do_sample是否启用采样。
temperature采样温度。越高生成越发散(推荐 0.3~0.8 之间),越低越稳定。
top_pnucleus sampling 的概率阈值。常用设为 0.9,控制生成 token 的累计概率覆盖。
top_k限定前 k 个 token 中采样。用于控制 token 候选范围,通常设置为 20~100。
stop_strings停止生成的关键字符串,用英文逗号分隔。
seed随机种子。
include_prompt_in_output是否将输入 prompt 一并包含在输出中。
cache_model是否缓存加载的模型。

do_sample=False 时,模型使用贪心搜索(Greedy Search),每一步都选择概率最高的词。这种方式速度快、结果稳定,但可能过于保守,缺乏变化和创意。

do_sample=True 时,模型会根据概率分布进行随机采样,即使是概率较低的词也可能被选中。这样可以带来更多多样性和创造性。而只有ture时,temperature、top_p、top_k参数才生效。


top_k和top_p的区别

  • top_k只从概率最高的前 k 个词中采样,固定数量如果 k=5,只从前5个最可能的词中随机选一个
  • top_p从累计概率达到 p 的词集合中采样,动态范围如果 p=0.9,从总概率累加到90%的词中随机选一个

stop_strings作为结束标识符,需要在system_prompt或者user_prompt加以提示才能生效。

include_prompt_in_output设置为true时,它会将角色和问题都放入描述文本中。

cache_model为false时,生成时间将近11秒

cache_model为true时,生成时间大约7秒