AnimalPose Estimator (AP10K)

节点功能:该节点识别图像中的动物并估计其身体关键点(姿态),输出一张姿态图(可用于 ControlNet)和关键点 JSON 数据,用于生成结构清晰、动作自然的动物图像。

输入参数

参数名称说明
image输入图像。

输出参数

参数名称说明
IMAGE绘制了动物关键点与骨架线段的可视化图像。
POSE_KEYPOINT关键点位置信息的字典格式输出,包含每帧动物的关键点数组(openpose风格 JSON 数据)。

控件参数

参数名称说明
bbox_detector用于检测动物位置的目标检测器模型。支持 TorchScript 和 ONNX 格式。yolox_l 精度高、适合通用动物目标定位;也可使用 yolo_nas_* 模型进行更快的检测。模型文件将自动下载。
pose_estimator用于估算姿态关键点的骨架检测模型。支持 TorchScript 和 ONNX 格式。基于 AP-10K 数据集训练的 RTMpose 模型,适配不同精度与推理方式。TorchScript 更快但格式固定,ONNX 灵活性更高。
resolution推理时对图像进行的处理分辨率,图像将被缩放至该尺寸处理。通常设置为 512 或 768,在控制内存的同时获得足够推理质量。建议与最终生成图像一致。

下图为识别出画面中猫咪的骨骼图像。

下图为测试实例,控制效果并不太好,因为网上可以找到动物相关的openpose模型非常少。