节点功能:基于 Llama 3.2 11B Vision 模型的多模态图像理解和生成文本描述。
当 do_sample=False 时,模型使用贪心搜索(Greedy Search),每一步都选择概率最高的词。这种方式速度快、结果稳定,但可能过于保守,缺乏变化和创意。
当 do_sample=True 时,模型会根据概率分布进行随机采样,即使是概率较低的词也可能被选中。这样可以带来更多多样性和创造性。而只有ture时,temperature、top_p、top_k参数才生效。
top_k和top_p的区别
- top_k只从概率最高的前 k 个词中采样,固定数量如果 k=5,只从前5个最可能的词中随机选一个
- top_p从累计概率达到 p 的词集合中采样,动态范围如果 p=0.9,从总概率累加到90%的词中随机选一个
stop_strings作为结束标识符,需要在system_prompt或者user_prompt加以提示才能生效。
include_prompt_in_output设置为true时,它会将角色和问题都放入描述文本中。
cache_model为false时,生成时间将近11秒
cache_model为true时,生成时间大约7秒