comfyui_llm_party
时间:2025/11/03
🖥️VLM本地加载器
用于加载本地的多模态大模型(VLM, Vision-Language Model),支持 llama-v、qwen-vl、deepseek-janus-pro 等架构。
该节点输出模型对象和对应的处理器,用于后续的图文理解或多模态任务(注意:此节点不会生成图片,只能执行图像+文本→ 文本的推理)。
🖥️VLM本地加载器-节点参数说明
| 输出参数 | |
| model | 已加载的 VLM 模型对象,供推理节点使用。 |
| tokenizer(processor) | 文本/图像处理器,用于预处理输入数据(例如将图片编码为 patch embedding)。 |
| 控件参数 | |
| model_name_or_path | 模型路径(本地模型文件目录,例如 E:\MODELS\Llama-3.2-11B-Vision-Instruct) |
| device | 运行设备:auto / cuda / cpu / mps。GPU 建议用 cuda。 |
| dtype | 推理精度:auto(自动)、float16(省显存)、float32(高精度)、bfloat16、int8 / int4(量化)。 |
| is_locked | 是否锁定模型,避免工作流每次运行都重复加载。一般保持 true。 |
| type | 模型类型:llama-v、qwen-vl、deepseek-janus-pro。不同厂商的多模态模型需对应选择。 |

