人物一致性--LoRA训练(一)数据集制作
前言
人物一致性一直是图像生成中的难点之一。受到 Mick 大佬的实践经验启发,发现可以通过 LoRA 模型 对人物特征进行有效控制,从而实现高一致性的人物生成。
但是在实际应用前,需要完成一系列准备工作,包括 数据集的生成、处理,以及 LoRA 模型的训练。为系统呈现这一完整流程,后续内容将以多篇文章的形式进行复现,并结合过程中的关键步骤与对比结果,全面展示人物一致性控制的可行方法与效果表现。
基于本文方法训练的Lora模型示例:点击查看
资源整合包:点击跳转
视频教程:点击跳转
在 Mick 的实践中,他预先生成了 OpenPose 骨骼图,并采用 Flux + Union 的组合方式用于一致性人物的生成。该方法在一定程度上实现了结构引导与风格控制的结合。
然而,在实际测试过程中,该方案在部分设备上表现存在一定差异。一方面生成过程耗时较长,另s一方面在特定配置下出图质量未达到预期效果,表现出一定的不稳定性。因此,在具体应用中仍需根据任务需求和硬件条件进行权衡与优化。
一、Flux+union
该方法使用了union-pro的Controlnet模型。在实际测试中,当控制强度strength设置为1.0时,生成的图像似乎调用了 Union 模型中的 Canny 边缘特征,导致图像结构混乱,整体效果不成型。由于输出图像质量无法满足基础数据集构建的要求,该方案在初始数据生成阶段的适用性存在较大限制。
当控制强度strength降低至 0.5 时,生成的图像基本没有受到 OpenPose 骨骼图的有效引导,人物姿态表现趋于随机,结构控制效果明显减弱。因此,在此强度设定下,生成结果无法满足一致性或结构可控的需求,所产生的数据也难以用于后续的数据集构建与训练。
当控制强度strength进一步调高至 0.58 时,生成结果依然未达到理想效果。尽管数值上接近强控制区间,但图像中的人物姿态并未严格遵循骨骼图的引导,控制效果依旧偏弱,表现出较明显的不稳定性。由于该模型对控制强度极为敏感,微小数值变化即可能导致结果失控,因此在当前设定下,生成的图像仍无法满足数据集构建的要求。
因此,基于上述实验结果,为保证数据集质量与生成稳定性,最终放弃了采用 Flux + Union 组合方案的选择。
二、SDXL+ControlNet
在尝试其他数据集生成方式之前,首先进行理论层面的分析。由于目标是生成严格遵循姿势图的图像,需要尽可能确保图像中包含足够多模型可操作的像素区域。以 SD 1.5 模型为例,其输出分辨率为 512×512,难以在一张图中完整表达 19 个面部关键特征,同时该模型在语义理解方面也存在一定局限。
基于以上考虑,最终决定在 SDXL 模型体系中进行选择,以更高的分辨率与更强的语义能力,支持初始数据集的高质量构建。
如下图所示,当使用 SDXL 模型结合 OpenPose 进行图像生成时,为了充分发挥 SDXL 在分辨率和细节方面的优势,提示词采用了精炼短句的形式以提升模型的响应准确性和出图性能。
从结果来看,可以明显感受到 SDXL 在色域控制方面不如 Flux 模型,尤其在理解诸如“纯白色背景”等概念时存在偏差。此外,图像中出现了较多噪点,这一问题可能可通过进一步优化提示词进行缓解。
更关键的是,SDXL 模型在人物生成的一致性方面表现不稳定,无法可靠地维持统一的服装、发型或发色等细节特征,这对于构建高一致性的人物数据集构成了较大挑战。
尽管上述问题客观存在,但这些方法并非完全不可用。在实际操作中,经过多次生成(“抽卡”)后,仍有较大概率获得质量较高、可用于数据集构建的图像。因此,建议根据自身需求和偏好,自行选择合适的工作流进行尝试,以找到最契合的数据集生成方案。
三、Kolors+ControlNet
在测试过程中,Kolors 模型展现出较强的语义理解能力和出色的姿势控制效果,支持使用中文提示词进行精确引导,同时在人物一致性方面也有较为稳定的表现。因此,最终选择使用 Kolors 模型作为图像处理的主要工具。
综上所述,在人物一致性的数据集生成阶段,推荐优先采用 Kolors 模型结合 ControlNet 的方式进行图像生成。实践表明,在提示词中加入关键词 “人物设计稿”,可以显著提升模型在风格统一性和角色一致性方面的表现。
在此阶段,无需过于追求图像的最终质量,例如面部细节或服装纹理等。这些内容可在后续的图像修复与分割过程中进一步优化。通过修复步骤,不仅可以提升整体图像质量,还能进一步增强人物特征的一致性控制,为 LoRA 训练或其他下游任务打下更稳固的基础。