(Down)Load FramePackModel

节点功能:加载并初始化 FramePack 视频生成模型,自动从 HuggingFace 拉取 lllyasviel/FramePackI2V_HY 模型并缓存在本地,适合无需手动下载的用户。

输入参数

参数名称说明
compile_args模型编译参数,用于控制 Torch 编译器的行为。

输出参数

参数名称说明
model加载完成并预处理好的 FramePackTransformer 模型结构。

控件参数

参数名称说明
model模型名称。
base_precision模型主精度类型,控制基础计算精度。
quantization是否使用低精度量化模型。可选项说明: • disabled:禁用量化,保持原始精度; • fp8_e4m3fn:极低精度量化,节省显存但可能损失精度; • fp8_e4m3fn_fast:加速版 FP8,可启用线性模块优化; • fp8_e5m2:另一种 FP8 格式。非所有设备支持。
attention_mode注意力计算方法。 可选项说明: • sdpa:标准高效注意力实现,兼容性高; • flash_attn:支持 FlashAttention 加速推理,推荐现代显卡使用; • sageattn:基于 SAGE 实现的稀疏注意力,节省显存。

下面是速度测试内容。

以下是quantization=disabled下视频生成时间

以下是quantization=fp8_e4m3fn_fast下视频生成时间,可以看到总体是比上面时间少的

左边是未经过量化disabled,右边则是fp8_e4m3fn_fast。差距并不是很大,不过这里使用的是llava_llama3_fp8_scaled.safetensors,手部细节不是很好

左边是使用llava_llama3_fp8_scaled.safetensors,右边是llava_llama3_fp16.safetensorsSafe。至少前几帧fp16比fp8的手部细节更好一些

使用fp16模型对比于fp8模型视频生成时间,差距也不是很大。