comfyui_llm_party>🖥️VLM本地加载器
comfyui_llm_party
时间:2025/11/03

🖥️VLM本地加载器

用于加载本地的多模态大模型(VLM, Vision-Language Model),支持 llama-v、qwen-vl、deepseek-janus-pro 等架构。 该节点输出模型对象和对应的处理器,用于后续的图文理解或多模态任务(注意:此节点不会生成图片,只能执行图像+文本→ 文本的推理)。
🖥️VLM本地加载器-节点参数说明
输出参数
model已加载的 VLM 模型对象,供推理节点使用。
tokenizer(processor)文本/图像处理器,用于预处理输入数据(例如将图片编码为 patch embedding)。
控件参数
model_name_or_path模型路径(本地模型文件目录,例如 E:\MODELS\Llama-3.2-11B-Vision-Instruct)
device运行设备:auto / cuda / cpu / mps。GPU 建议用 cuda。
dtype推理精度:auto(自动)、float16(省显存)、float32(高精度)、bfloat16、int8 / int4(量化)。
is_locked是否锁定模型,避免工作流每次运行都重复加载。一般保持 true。
type模型类型:llama-v、qwen-vl、deepseek-janus-pro。不同厂商的多模态模型需对应选择。

示例工作流

广告

可加入知识星球获取所有示例工作流

广告

微信扫码入群,加入AIGC大家庭,与大家一起交流学习